米NVIDIA(エヌビディア)は3月18日(米国時間)、米サンノゼで開催した年次プライベートカンファレンス「NVIDIA GTC 2024」で、次世代GPUアーキテクチャー「Blackwell」など生成AIに関連した製品・サービスを数多く発表した。
GTCは2019年以来5年ぶりの対面開催となるが、基調講演会場となったサンノゼのSAPセンターに集まった1万1000人の参加者を前に登壇したエヌビディアのジェンスン・フアンCEOは「世界はより大きなGPU、より大きなモデルを必要としている。パラメーターは数兆レベルにスケールするようになり、これまでとはまったく異なるコンピューティングが求められている」と語り、生成AIの進化を加速するプラットフォームを提供し続けていく姿勢を明らかにしている。
以下、本稿では現地の取材で明らかになったBlackwellの概要について紹介する。
米エヌビディアのジェンスン・ファンCEO。
GTCの基調講演はゲストの出演はなく、ファンCEOが一人で2時間のプレゼンを行う
「4ビット浮動小数点」でAI処理を大幅に高速化
Blackwellは現行の「Hopper」の後継で、AIワークロードに特化したデータセンター向けのGPUアーキテクチャーだ。Hopperアーキテクチャーを実装したGPUの「H100」および「H200」は生成AIブームの立役者となり、今も世界中の企業が激しい争奪戦を続けているが、Hopperの進化系であるBlackwellを実装する製品の「B200 Tensor Core GPU」(以下B200)もまた、H100/H200同様に高い需要が見込まれている。
GPUアーキテクチャーとしてのBlackwellの最大の特徴は、2つのGPUダイを「NV-HBI」という10TB/秒の高速インターフェースで接続し、一つの統合されたCUDA GPUとして機能させている点だ。このパッケージングにより、単一のGPU上に2080億個ものトランジスタを集積し、最大20ペタフロップスの浮動小数点演算性能(FP4の場合。後述)を実現している。プロセス技術にはTSMCの「4NPプロセス」と呼ばれる技術が使われている。
Blackwellでは前世代のHopperよりも大幅な性能向上を図り、
AI推論のパフォーマンスは最大20ペタフロップスとされている
ここで注目したいのが、20ペタフロップスというパフォーマンスの高さだ。ここ数年のエヌビディアの成長の原動力となったHopperには、「Transformer Engine」というライブラリーが搭載されている。名前の通り、「BERT」や「GPT」など現在広く使われている大規模言語モデルのバックボーンであるTransformerモデルの学習に最適化されたエンジンで、データ型としてAIの処理に特化した8ビット浮動小数点形式(FP8)という低い精度をサポートした。これによつて、H100はメモリフットプリント削減とスループット向上を実現したことが話題となった。
今回、Blackwellではさらに低い精度である4ビット浮動小数点形式(FP4)をサポートした第2世代のTransformer Engineを搭載し、H100がFP8で推論を行った場合の5倍の性能となる20ペタフロップスをFP4で実現している。低い精度での推論は現在の機械学習におけるトレンドでもあるが、FP4はその中にあってもとりわけ低い。製品化されたB200が市場に出たとき、この「FP4の推論」が市場にどう評価されるかに注目したい。
Blackwell(左)とHopper(右)の
大きさを比較するファンCEO
最大576個のGPUを連結するサーバー間接続技術
ファンCEOは基調講演でBlackwellを「One Giant GPU(ひとつの巨大なGPU)」と表現していたが、スケーラビリティの担保は同社のGPUの進化において欠かせない。Blackwellアーキテクチャーは、パラメーター数が数兆規模のモデルにもスケールして対応できることを謳っているが、その鍵となるのが第5世代の「NVLink」だ。NVLinkはサーバークラスター内のGPU間のシームレスな双方向通信を実現するインターコネクト技術で、第5世代にアップデートしたことにより、帯域幅が1.8TB/秒と大幅に拡張されている。
この第5世代のNVLinkを実装した「NVLink Switch」を使うことで最大576個のGPUを高速に双方向接続でき、ファンCEOが言うところの「One Giant GPU」が実現することになる。サーバー間を接続するインターコネクト技術としては、HPC分野などで利用されているInfinibandが一般的だが、エヌビディアが報道関係者向けに行った説明によれば、「16個のGPUを帯域幅100GB/秒のHDR Infinibandで接続したクラスターの場合、時間の60%がGPU間の通信に費やされてしまい、コンピューティングの通信時間は40%しかない」ということから、インターコネクトをGPUスケール上のボトルネックと位置づけて改善を重ねてきたことがうかがえる。
「B200」搭載のサーバーがクラウド各社のサービスにも登場
エヌビディアは24年後半からB200を主要なクラウドサービス事業者やサーバーメーカーに提供するとアナウンスしているが、B200をベースにしたいくつかの製品のリリースも予定している。以下、今回のGTCで発表されたBlackwellファミリーを挙げておく。
[GB200 Superchip]
2個のB200と1個のGrace CPU(Armベースのエヌビディア製データセンターCPU)をNVLinkで接続したコンポーネント。FP4の推論で40ペタフロップス、FP8の学習で20ペタフロップスを実現。前世代の「GH200 Superchip」の後継。
[GB200 NVL72]
上記のGB200が2つ搭載されたコンピュートトレイ18台と、第5世代のNVLink Switchを2台格納したスイッチトレイで構成されるラックスケールのサーバーマシンで、36個のGrace CPUと72個のB200が含まれる。FP4の推論で1440ペタフロップス、FP8の学習で720ペタフロップスを実現、これは前世代のH100から学習は4倍、推論は30倍、消費電力効率は25倍にそれぞれ向上していることを示している。
[DGX SuperPOD with DGX GB200 Systems]
NVLinkを介してB200をスケールさせた、最大で288個のGrace CPU、576個のB200、240TBの高速メモリで構成される“ターンキースーパーコンピューター”。FP4の推論は11.5エクサフロップス。
2個のBlackwell GPUと1個のGrace CPUに第5世代の
NVLink Switchを搭載したGB200 Superchip。
前世代のHopper GPUに比較してAI性能、とくに推論の性能向上が大きい
ブレードサーバのようにGB200 Superchipをラック内スケールさせた
DGX GB200 NVL72。内部には全長2マイル(約3.2km)、
5000本のNVLinkケーブルがある
なお、GB200 NVL72は「Amazon Web Services」「Google Cloud」「Oracle Cloud Infrastructure」が展開する「DGX Cloud」でもインスタンスとして24年後半から提供される予定となっている。
Blackwellへのエンドースを表明しているパートナー/顧客企業には、
大手クラウドに加え、米OpenAIや米Hugging Face、米Meta、
米TeslaといったAI開発者が数多く在籍する企業が目立つ
GTC 2024ではほかにもAI開発者向けのマイクロサービス「NIM」や、ヒューマノイド型ロボットの開発プロジェクト「GR00T」など多くの発表が行われた。これらを含めたGTC 2024の詳細なレポートは後日掲載する予定。
(五味明子)