- Google TPU アーキテクト出身で Maddox CEO の Rainer Pope が、トランスフォーマーモデルの訓練・推論がクラスタ上でどのように動作するかを数学的に解説する黒板講義。
- ルーフラインモデルを使ったメモリ帯域幅と計算性能の分析から始まり、バッチサイズ、パイプライニング、エキスパート並列化などの実装上の選択肢が API 価格やレイテンシにどう影響するかを具体的に示す。
- 後半では逆変換ネットワーク(RevNets)など、メモリ節約のための最新技術を紹介。ハイパースケーラーが capex の 50% をメモリに費やす現在、計算とメモリのトレードオフを理解することが AI システム設計の鍵となる。
論点をもう少し詳しく読む
ルーフラインモデルで推論時間を予測する:メモリ帯域幅と計算性能の二軸分析
推論レイテンシを予測するために、メモリフェッチ時間と計算時間という2つの要素を分析する枠組みを導入。バッチサイズ、モデルのアクティブパラメータ数、注意機構の計算量、そしてチップの FLOPS といったハードウェア定数を組み合わせることで、Blackwell NVL72 クラスタ(72 GPU のラック)上でのトランスフォーマー実行時間をシンプルながら強力に予測できることを示す。このアプローチにより、なぜ Claude や Cursor が FastMode で 6 倍の料金で 2.5 倍のトークンスピードを実現できるのか、また理論的には更に高速化や低速化のモードが可能な理由が明らかになる。
バッチサイズ、パイプライニング、エキスパート並列化による メモリ容量の最適化
単一の計算時間だけでなく、システム全体のメモリ容量制約をどう扱うかが重要。メモリ需要は総パラメータ数と KV キャッシュ(バッチサイズ × コンテキスト長 × トークンあたりのバイト数)から成り、複数 GPU への分散時に E(エキスパート並列化)と P(パイプライン並列化)という2つのパラメータで割ることで、GPU あたりのメモリ要件を計算。例えば E=64、P=4 といった選択が、全体システムのメモリ効率とレイテンシのバランスにどう影響するか、また層をラック間で完全にシャーディングすることで KV キャッシュも均等に分散できるメカニズムが解説される。
メモリ帯域幅が支配的な領域:FastMode が実現可能な理由
推論時のボトルネックが計算ではなくメモリ帯域幅にあることが多いという洞察が重要。バッチサイズを増やすと、同じハードウェア上でスループット(1秒あたりのトークン数)は改善されるが、個々の推論レイテンシには影響しない。一方、パイプライニングやエキスパート並列化を使って物理的に異なるラック間にレイヤーを分散させると、各ラックのメモリ帯域幅を並列に使えるため全体の壁時間が短縮される。この構造により、同じモデルに対して支払い意思に応じて異なるレイテンシ・スループット トレードオフを提供する API 価格戦略が理にかなっていることが明らかになる。
訓練時のアクティベーション保存の課題と逆変換ネットワーク(RevNets)の仕組み
訓練時のメモリフットプリント最大化要因は、フォワードパスで全層のアクティベーションを HBM(高帯域幅メモリ)に保存する必要があること。通常、フォワードパスで層 0→1→2→3 と進み、バックワードパスで逆順に読み出す。逆変換ネットワーク(2017-18 の RevNets 論文)は、特別な構築方法(2入力関数と残差接続の組み合わせ)によってネットワーク全体を可逆にし、バックワードパス中に必要なアクティベーションを動的に再計算することでメモリ保存を不要にする。この手法は KV キャッシュとは逆のトレードオフ(メモリを節約するために計算を増やす)を実現し、現在のメモリ制約が強い環境では極めて有用。
メモリと計算のトレードオフ戦略:なぜハイパースケーラーは過度なメモリに投資するのか
ハイパースケーラーの capex の約 50% がメモリに使われている事実は一見矛盾しているように見える(メモリが足りないなら不足であるべき)。しかし実際には、メモリを増やすことで推論レイテンシを短縮したり、バッチサイズを増やしたり、より複雑な並列化スキームを使ったりできるため、全体的な経済効率が向上する。訓練ではアクティベーション保存に大量のメモリが必要であり、推論では KV キャッシュがバッチサイズやコンテキスト長に応じて増加する。つまり「過度」に見えるメモリも、実は現在のハードウェア制約下では正当化できる戦略的投資であり、メモリコストが下がらない限り、計算よりもメモリへの資本配分がより収益性が高い状況が続く。