NTTコミュニケーションズ(NTTコム)は10月7日、NTTグループが整備を進めている次世代ネットワーク基盤「IOWN」のうち、データの大容量低遅延の伝送を実現する「APN(All Photonics Network」を使った「IOWN APN」で接続した2カ所のデータセンター(DC)で、GPUサーバーを使った生成AIの事前学習の実証実験に成功したと発表した。単一のDCで学習した際と同等の速度が実現できたとして、商用化に向け共創パートナーを募り、技術課題の解決や顧客ニーズの発掘に注力する。
実証実験は、生成AI活用のニーズが高まり、GPUサーバーを大量に集めた「GPUクラスター」が必要とされている中、単一のDCだけでは必要なスペースや電力供給に限界が出てきたという課題を解決する目的で、複数のDCをIOWN APNで相互接続することでGPUリソースやストレージなどのデータを分散配置することを目指して実施した。
張 暁晶 部長
実験では、約40km離れた東京都内2カ所のDCにそれぞれ配置したGPUサーバーを対象に、複数のGPUサーバーを用いた分散学習に対応した米NVIDIA(エヌビディア)のプラットフ\ォーム「NVIDIA NeMo」で環境を構築。大規模言語モデル「Llama 2 7B」の事前学習の処理完了の所要時間を計測したところ、単一DCでの所要時間を1とした場合、2カ所のDCをIOWN APNで接続した場合は約1.006倍となった。イノベーションセンターIOWN推進室の張暁晶・担当部長は「ほぼ同等の性能を発揮できることが確認できた」と説明した。インターネット経由で分散DC間の学習をした場合、29倍の時間がかかるという。より遠距離の場合の速度への影響は今後検証を進める。
今回の結果から、分散DCにおけるGPUクラスターの運用について可能性を探り、NTTコムが2024年3月から提供している「APN専用線プラン powered by IOWN」や、液冷方式サーバーに対応した省エネ型データセンターサービス「Green Nexcenter」などと組み合わせたソリューションとして提供を目指す。共創パートナーは「AI活用を目指す製造業、金融など幅広い業種の企業が対象になる」(張部長)とした。
(堀 茜)