AI向けITインフラで成長を続けている米NVIDIA(エヌビディア)は、GPUの提供に加えて、開発・運用環境などソフトウェア面でもAI活用を支援できる点を強みに、国内市場への訴求を進めている。3月に米サンノゼで開催した年次イベント「GTC 2024」では、AI活用における「推論(Inference)」フェーズの課題を解決するマイクロサービス技術の「NIM(ニム)」を開発者向けの目玉機能として発表。8月には国内でも、NIMを活用した日本語向け大規模言語モデル(LLM)が登場した。ハードとソフトの両面でエコシステムを拡充し、生成AIを本番環境に展開する企業の増加に対応する。
(大向琴音)
AIの開発・運用の中にはモデルを構築する「学習」の処理と、モデルを利用して業務やサービスのための出力を得る「推論」の処理がある。AIの活用が進めば、推論の処理が増えるとみられる。
エヌビディア日本法人
澤井理紀
テクニカルマーケティングマネージャー
大規模なインフラを用意し多くのデータを分析する必要がある学習に対して、推論は比較的簡単とみられがちだが、エヌビディア日本法人の澤井理紀・テクニカルマーケティングマネージャーは「それは誤りで、推論は学習とは異なる難しさを抱えている」と指摘する。生成AIを用いたアプリケーションを構築するためには、LLM、音声の認識や合成、RAG(検索拡張生成)の埋め込みモデルなど、複数のAIモデルやソフトウェア、それらと依存関係のあるライブラリーを組み合わせて実装する必要があり、導入や継続的な保守の難度が高い。また、スループット(単位時間あたりに処理できる能力)や精度、レイテンシーなど、さまざまな要件のバランスを取りながらAIモデルを最適化しなければならない。
これらの推論の難しさを解消するためにエヌビディアが提供を開始したのがNIMだ。推論に必要なAIモデルとソフトウェアをまとめてパッケージ化し、マイクロサービスとして用意している。具体的には、エヌビディアが最適化したAIモデルをDockerコンテナの形式で提供しており、ユーザーはそれらをクラウドやオンプレミスのコンテナ環境で動作させられる。ユーザーのアプリからAIモデルにアクセスするためのAPIや、管理のためのモニタリング機能なども搭載しており、推論のためのソフトウェア開発や運用の負担を減らすことができる。
また、高速処理が可能なのも特徴。NIMで最適化したLLMの「Llama-3 70B」を4基のGPU「H100」上で動かした場合、一般的なオープンソースベースの構成と比べてスループットが5倍改善するという。
事例としては、米CrowdStrike(クラウドストライク)や独SAP(エスエーピー)などが、自社のソリューションと生成AI技術の連携にNIMを活用しているという。8月には、東京工業大学(現東京科学大学)が日本語データでファインチューニングしたLLM「Llama-3-Swallow 70B」をNIMで利用可能としたほか、生成AI開発に取り組む楽天などの企業もNIM向けにモデルを公開している。
NIMは、生成AI活用のためのプラットフォーム「NVIDIA AI Enterprise」の一部として提供される。本番環境での利用にはライセンス購入が必要だが、導入を検討しているユーザーは、Web上からAIモデルを試すことが可能となっている。