Special Feature
2024年前半のトピックから読み解く グローバルIT大手の生成AI戦略
2024/07/18 09:00
週刊BCN 2024年07月15日vol.2022掲載
“生成AI元年”だった2023年に引き続き、24年に入ってもエンタープライズITの世界では新しい大規模言語モデル(LLM)や巨額の投資、大型のパートナーシップなど、生成AIに関する発表が相次いでいる。わずか1年前の業界地図が古びてしまうほど、この領域でのテクノロジーやビジネスの構造の変化は激しい。世界の大手IT企業はどのように生成AIに取り組み、今後に向けてどんな戦略を描いているのか。24年前半の動きを振り返り、企業の情報システムに生成AIが与える影響を探る。
(文/日高 彰)
米OpenAI
今年に入っても、生成AI市場における話題の中心となっているのは米OpenAI(オープンエーアイ)だ。5月には新たなAIモデルの「GPT-4o」を発表。名称に付く「o」は「すべての」「全方位」などを意味するomniから取られているという。テキストだけでなく、画像や音声の処理も単一のニューラルネットワークで行う仕組みを採用したことから、このように名付けられているとみられる。
OpenAIが公開した「GPT-4o」のデモンストレーション映像。
「I〓ChatGPT」と書かれた画像を見せられ、AIが照れ笑いを含みながら回答する様子が披露された
※〓は絵文字のハート
テキスト以外の情報もまとめて処理できる、「マルチモーダル」なAIへの進化をさらに志向した。例えば、音声で指示を入力し、その返答を音声で得るといった処理もスムーズに行える。従来の「GPT-4」でも音声での対話は可能だったが、入力された音声をいったんテキストに変換して解釈し、生成したテキストを再び音声に変換して出力していたため反応に時間がかかったほか、声の抑揚や話すスピードなどに含まれる情報も失われていた。GPT-4oではより自然にやりとりできるようになることが期待される。
性能を示す数値としては、音声に対する応答時間がGPT-3.5では平均2.8秒、GPT-4では同5.4秒だったのに対し、GPT-4oでは同0.32秒と、大幅に高速化したことが示されている。OpenAIが公開したデモンストレーション映像では、GPT-4oが人間同士の会話に近いテンポでユーザーと対話するシーンが披露されたほか、人の表情を認識したり、音声での返答中にわずかに言葉に詰まったりと、より“人間らしい”反応を示すことが明らかになった。
また、テキストをAIが理解可能な形式に分割・変換する、「トークナイザー」と呼ばれる処理において、多言語で圧縮率を向上した。日本語では圧縮率が1.4倍となり、これまでより少ないトークン量で処理が可能となる。GPT-4oは、主力製品である「GPT-3.5 Turbo」に比べるとトークンあたりのAPI利用価格は10倍と高価だが、これまで最上位製品だった「GPT-4 Turbo」よりは安価に設定されている。トークナイザーの圧縮率向上と合わせると、性能の割には安く使える値付けとなっており、OpenAIは最新のモデルへの移行を積極的に促していく姿勢を見せている。
生成AIは、自然言語でユーザーとの対話が行えることが最大のメリットとされ、さまざまな業務システムへの組み込みが進んでいる。しかし、応答時間の問題があったため、特定の業務に習熟したユーザーにとっては、求める情報が得られるまでのタイムラグでストレスが生じたり、自然言語ではなく従来のシステムが理解可能なコマンドを学んだほうが実用的だったりと、生成AIが必ずしも生産性向上につながらない課題があった。GPT-4oのように高速で、しかもユーザーの表情や声の調子からより多くの文脈を理解できるAIモデルが利用可能となれば、AIを“優れた同僚”として活用し業務を効率化できる可能性が広がる。
ただ、5月中旬の発表と同時にGPT-4oのAPIは利用可能となったが、高度な音声認識機能については今後一部ユーザーに対して提供するという段階で、すべてのユーザーに公開されるのは今年秋頃になる予定。リアルタイムでの音声対話が可能になるのはまだ先のことであり、デモンストレーション映像の中で示された新機能の内容はやや先走りの感も否めない。
世界中で生成AI向けの計算資源が争奪戦となっている中、OpenAI自身もLLMの開発やサービス提供に必要となるGPUサーバーの確保に奔走している。6月には、米Oracle(オラクル)と協業し、LLMの構築用に「Oracle Cloud Infrastructure(OCI)」を新たに採用することを発表した。OpenAIはこれまで出資を受ける米Microsoft(マイクロソフト)のクラウド基盤を主に使用していたが、それだけでは今後の需要を満たせないと判断したとみられる。
この協業はオラクル、マイクロソフト、OpenAIの3社による提携で、マイクロソフトのクラウドサービスである「Azure」をOCI上に拡張するかたちで実現するという。オラクルは、自社が支援するカナダのCohere(コヒア)や、イーロン・マスク氏が主導しチャットボット「Grok」などを開発する米xAI(エックスエーアイ)などにもOCIを提供しており、生成AIによるコンピューティング需要の急騰をOCI事業の成長につなげていく考えだ。
また、企業の業務への生成AI導入に関しては、AIの安全性についてリスクを指摘する声は絶えない。OpenAIの設立者の一人で、チーフサイエンティストを務めていたイリヤ・サツキバー氏が同社を退職するというニュースが、GPT-4oの発表直後に生成AI業界では話題となった。同氏は、今後AIがより高度に進化する中で、人間社会にとって望ましくない動きをするようになることを懸念。AIの動作をコントロールする取り組みを、OpenAI内の「スーパーアライメントチーム」で進めていたが、同社はこのチームを解散した。
サツキバー氏の退職の理由は明らかになっていないが、生成AIをめぐってはプライバシーや著作権、セキュリティーなどの問題が常に指摘されており、OpenAIは欧米の大手メディア企業などと協業を進める一方で、著作権を侵害したとして新聞社や著作者団体など複数の権利者から訴えられている。OpenAIの技術が企業にとって安心して導入できるものなのか、慎重に見極めていく必要がある。
米Google
OpenAIと同社を支援するマイクロソフトの連合に対し、対抗する技術を打ち出し続けているのが米Google(グーグル)である。OpenAIによるGPT-4o発表の翌日、グーグルは同社の生成AI「Gemini(ジェミニ)」の主力モデルである「Gemini 1.5 Pro」のアップデートを発表した。GeminiはOpenAIよりも先んじてマルチモーダル機能の強化を訴求してきたAIで、今回のアップデートでは入力可能なトークン数の拡張を前面に打ち出している。
トークン数でGPT-4oを圧倒することをアピールし、
“対OpenAI”の姿勢を強調するグーグルのサンダー・ピチャイCEO
GPT-4oが最大12万8000トークンに対応するのに対し、Gemini 1.5 Proは100万トークン以上の処理が可能。グーグルでは、Gemini 1.5 Proで扱える情報の例として▽最大1500ページの複数のドキュメント▽100件の電子メール▽1時間の動画コンテンツ▽3万行を超えるコードベース―を挙げており、大量の情報の要約などが可能としている。具体的な活用シーンとしては、契約書から特定の規定を探し出す、複数の長い論文の論点の比較、といったものが例示されている。
グーグルが提供するオフィスアプリケーションとの統合もGeminiの特徴の一つだ。同社は6月、「Google Workspace」の契約者向けに、「Gmail」「ドライブ」「ドキュメント」「スプレッドシート」「スライド」の各サービスでGemini 1.5 ProによるAI機能が利用可能となったことをアナウンスした。これは、マイクロソフトが「Copilot for Microsoft 365」で提供している機能群の対抗馬にあたり、Gmailやドライブ内に蓄積された情報の自然言語による検索や、ビジネス文書の作成や要約・分析が可能だ。
業務効率化につながることが期待できる機能としては、Geminiをカスタマイズできる「Gems」も発表された。これは、Geminiの動作をあらかじめユーザーごとに定義できる機能で、生成AIをアシスタントとして使用するときに入力していた「あなたは○○に関する専門家で、私の相談に対して行動計画の策定をお願いします」といったプロンプトが不要になる。定期的に発生する作業について、事前定義済みのGemsに短く問いかけるだけで回答が得られるため、プログラミング業務における共同作業者などとして活躍することが期待される。ただ、提供形態や他のシステムとの連携についてはまだ明らかになっていない部分も多く、企業の情報システムへの組み込みにつながるかは未知数だ。
日本市場に対する働きかけとしては、6月に東京大学の松尾・岩澤研究室とパートナーシップを結び、27年までに全国47都道府県でAIによる地域の課題解決や、AI人材の育成に取り組むことを発表。研究室で技術を学んだ人材が、全国各地で社会課題に対応するためのAI実装に従事するサイクルをつくることを目指す。第1弾として大阪府で、就業希望者と企業の間での雇用マッチングにAIを活用する取り組みを開始した。米Anthropic
処理性能の高さで話題となっているのが、米Amazon.com(アマゾン・ドット・コム)などが出資するスタートアップの米Anthropic(アンソロピック)が提供する「Claude(クロード)」だ。アンソロピックはOpenAI出身の研究者らが21年に立ち上げた研究開発企業で、23年に最初の生成AIモデル「Claude 1」を公開。同年、アマゾンとの資本提携を発表し、その後アマゾンからの出資は累計40億ドルに達している。なお、アンソロピックにはグーグルも今後最大で20億ドル規模の出資をする意向を示しており、OpenAIに対抗する生成AIという図式が形成されつつある。
最新版は6月にリリースした「Claude 3.5」で、同社自身のサービスのほか、「Amazon Web Services」の「Bedrock」や、「Google Cloud」の「Vertex AI」といった生成AIアプリケーション開発基盤で利用可能となっている。学部レベルの専門知識を問う「MMLU」や、数学の問題解決を行う「MATH」といった、複数の生成AIベンチマークテストで高いスコアを獲得しており、その一部はGPT-4oを上回るという。
大量の文書の要約といった作業に加え、CSVファイルを読み取ってユーザーと対話しながら目的に合うグラフを生成したり、数学や工学の課題に解決策を示したりといった、専門性の高いタスクにも精度の高い回答を行えるのが特徴。また、トークナイザーの圧縮率の違いのため単純比較は難しいものの、OpenAIを意識した価格設定を行っており、コスト面で有利になるケースもある。
このほか、本紙6月3日号でお伝えした通り、今年はPCメーカー各社が「AI PC」の普及に力を入れ始め、マイクロソフトはAI処理に最適化したPC規格の「Copilot+ PC」を打ち出した。マイクロソフトは、PC上でも高い精度が得られるとする小型LLMの「Phi-3」も4月に発表している。クラウド大手が自社基盤へのAIアプリケーションの囲い込みを強化する一方、ローカルで動作する“オンデバイスAI”の動きにも今後注目が高まると予想される。
(文/日高 彰)

米OpenAI
人と自然に対話できる「GPT-4o」を発表
今年に入っても、生成AI市場における話題の中心となっているのは米OpenAI(オープンエーアイ)だ。5月には新たなAIモデルの「GPT-4o」を発表。名称に付く「o」は「すべての」「全方位」などを意味するomniから取られているという。テキストだけでなく、画像や音声の処理も単一のニューラルネットワークで行う仕組みを採用したことから、このように名付けられているとみられる。
「I〓ChatGPT」と書かれた画像を見せられ、AIが照れ笑いを含みながら回答する様子が披露された
※〓は絵文字のハート
テキスト以外の情報もまとめて処理できる、「マルチモーダル」なAIへの進化をさらに志向した。例えば、音声で指示を入力し、その返答を音声で得るといった処理もスムーズに行える。従来の「GPT-4」でも音声での対話は可能だったが、入力された音声をいったんテキストに変換して解釈し、生成したテキストを再び音声に変換して出力していたため反応に時間がかかったほか、声の抑揚や話すスピードなどに含まれる情報も失われていた。GPT-4oではより自然にやりとりできるようになることが期待される。
性能を示す数値としては、音声に対する応答時間がGPT-3.5では平均2.8秒、GPT-4では同5.4秒だったのに対し、GPT-4oでは同0.32秒と、大幅に高速化したことが示されている。OpenAIが公開したデモンストレーション映像では、GPT-4oが人間同士の会話に近いテンポでユーザーと対話するシーンが披露されたほか、人の表情を認識したり、音声での返答中にわずかに言葉に詰まったりと、より“人間らしい”反応を示すことが明らかになった。
また、テキストをAIが理解可能な形式に分割・変換する、「トークナイザー」と呼ばれる処理において、多言語で圧縮率を向上した。日本語では圧縮率が1.4倍となり、これまでより少ないトークン量で処理が可能となる。GPT-4oは、主力製品である「GPT-3.5 Turbo」に比べるとトークンあたりのAPI利用価格は10倍と高価だが、これまで最上位製品だった「GPT-4 Turbo」よりは安価に設定されている。トークナイザーの圧縮率向上と合わせると、性能の割には安く使える値付けとなっており、OpenAIは最新のモデルへの移行を積極的に促していく姿勢を見せている。
生成AIは、自然言語でユーザーとの対話が行えることが最大のメリットとされ、さまざまな業務システムへの組み込みが進んでいる。しかし、応答時間の問題があったため、特定の業務に習熟したユーザーにとっては、求める情報が得られるまでのタイムラグでストレスが生じたり、自然言語ではなく従来のシステムが理解可能なコマンドを学んだほうが実用的だったりと、生成AIが必ずしも生産性向上につながらない課題があった。GPT-4oのように高速で、しかもユーザーの表情や声の調子からより多くの文脈を理解できるAIモデルが利用可能となれば、AIを“優れた同僚”として活用し業務を効率化できる可能性が広がる。
ただ、5月中旬の発表と同時にGPT-4oのAPIは利用可能となったが、高度な音声認識機能については今後一部ユーザーに対して提供するという段階で、すべてのユーザーに公開されるのは今年秋頃になる予定。リアルタイムでの音声対話が可能になるのはまだ先のことであり、デモンストレーション映像の中で示された新機能の内容はやや先走りの感も否めない。
世界中で生成AI向けの計算資源が争奪戦となっている中、OpenAI自身もLLMの開発やサービス提供に必要となるGPUサーバーの確保に奔走している。6月には、米Oracle(オラクル)と協業し、LLMの構築用に「Oracle Cloud Infrastructure(OCI)」を新たに採用することを発表した。OpenAIはこれまで出資を受ける米Microsoft(マイクロソフト)のクラウド基盤を主に使用していたが、それだけでは今後の需要を満たせないと判断したとみられる。
この協業はオラクル、マイクロソフト、OpenAIの3社による提携で、マイクロソフトのクラウドサービスである「Azure」をOCI上に拡張するかたちで実現するという。オラクルは、自社が支援するカナダのCohere(コヒア)や、イーロン・マスク氏が主導しチャットボット「Grok」などを開発する米xAI(エックスエーアイ)などにもOCIを提供しており、生成AIによるコンピューティング需要の急騰をOCI事業の成長につなげていく考えだ。
また、企業の業務への生成AI導入に関しては、AIの安全性についてリスクを指摘する声は絶えない。OpenAIの設立者の一人で、チーフサイエンティストを務めていたイリヤ・サツキバー氏が同社を退職するというニュースが、GPT-4oの発表直後に生成AI業界では話題となった。同氏は、今後AIがより高度に進化する中で、人間社会にとって望ましくない動きをするようになることを懸念。AIの動作をコントロールする取り組みを、OpenAI内の「スーパーアライメントチーム」で進めていたが、同社はこのチームを解散した。
サツキバー氏の退職の理由は明らかになっていないが、生成AIをめぐってはプライバシーや著作権、セキュリティーなどの問題が常に指摘されており、OpenAIは欧米の大手メディア企業などと協業を進める一方で、著作権を侵害したとして新聞社や著作者団体など複数の権利者から訴えられている。OpenAIの技術が企業にとって安心して導入できるものなのか、慎重に見極めていく必要がある。
米Google
「Workspace」との統合を加速
OpenAIと同社を支援するマイクロソフトの連合に対し、対抗する技術を打ち出し続けているのが米Google(グーグル)である。OpenAIによるGPT-4o発表の翌日、グーグルは同社の生成AI「Gemini(ジェミニ)」の主力モデルである「Gemini 1.5 Pro」のアップデートを発表した。GeminiはOpenAIよりも先んじてマルチモーダル機能の強化を訴求してきたAIで、今回のアップデートでは入力可能なトークン数の拡張を前面に打ち出している。
“対OpenAI”の姿勢を強調するグーグルのサンダー・ピチャイCEO
GPT-4oが最大12万8000トークンに対応するのに対し、Gemini 1.5 Proは100万トークン以上の処理が可能。グーグルでは、Gemini 1.5 Proで扱える情報の例として▽最大1500ページの複数のドキュメント▽100件の電子メール▽1時間の動画コンテンツ▽3万行を超えるコードベース―を挙げており、大量の情報の要約などが可能としている。具体的な活用シーンとしては、契約書から特定の規定を探し出す、複数の長い論文の論点の比較、といったものが例示されている。
グーグルが提供するオフィスアプリケーションとの統合もGeminiの特徴の一つだ。同社は6月、「Google Workspace」の契約者向けに、「Gmail」「ドライブ」「ドキュメント」「スプレッドシート」「スライド」の各サービスでGemini 1.5 ProによるAI機能が利用可能となったことをアナウンスした。これは、マイクロソフトが「Copilot for Microsoft 365」で提供している機能群の対抗馬にあたり、Gmailやドライブ内に蓄積された情報の自然言語による検索や、ビジネス文書の作成や要約・分析が可能だ。
業務効率化につながることが期待できる機能としては、Geminiをカスタマイズできる「Gems」も発表された。これは、Geminiの動作をあらかじめユーザーごとに定義できる機能で、生成AIをアシスタントとして使用するときに入力していた「あなたは○○に関する専門家で、私の相談に対して行動計画の策定をお願いします」といったプロンプトが不要になる。定期的に発生する作業について、事前定義済みのGemsに短く問いかけるだけで回答が得られるため、プログラミング業務における共同作業者などとして活躍することが期待される。ただ、提供形態や他のシステムとの連携についてはまだ明らかになっていない部分も多く、企業の情報システムへの組み込みにつながるかは未知数だ。
日本市場に対する働きかけとしては、6月に東京大学の松尾・岩澤研究室とパートナーシップを結び、27年までに全国47都道府県でAIによる地域の課題解決や、AI人材の育成に取り組むことを発表。研究室で技術を学んだ人材が、全国各地で社会課題に対応するためのAI実装に従事するサイクルをつくることを目指す。第1弾として大阪府で、就業希望者と企業の間での雇用マッチングにAIを活用する取り組みを開始した。
米Anthropic
アマゾンとグーグルが出資する対抗馬
処理性能の高さで話題となっているのが、米Amazon.com(アマゾン・ドット・コム)などが出資するスタートアップの米Anthropic(アンソロピック)が提供する「Claude(クロード)」だ。アンソロピックはOpenAI出身の研究者らが21年に立ち上げた研究開発企業で、23年に最初の生成AIモデル「Claude 1」を公開。同年、アマゾンとの資本提携を発表し、その後アマゾンからの出資は累計40億ドルに達している。なお、アンソロピックにはグーグルも今後最大で20億ドル規模の出資をする意向を示しており、OpenAIに対抗する生成AIという図式が形成されつつある。最新版は6月にリリースした「Claude 3.5」で、同社自身のサービスのほか、「Amazon Web Services」の「Bedrock」や、「Google Cloud」の「Vertex AI」といった生成AIアプリケーション開発基盤で利用可能となっている。学部レベルの専門知識を問う「MMLU」や、数学の問題解決を行う「MATH」といった、複数の生成AIベンチマークテストで高いスコアを獲得しており、その一部はGPT-4oを上回るという。
大量の文書の要約といった作業に加え、CSVファイルを読み取ってユーザーと対話しながら目的に合うグラフを生成したり、数学や工学の課題に解決策を示したりといった、専門性の高いタスクにも精度の高い回答を行えるのが特徴。また、トークナイザーの圧縮率の違いのため単純比較は難しいものの、OpenAIを意識した価格設定を行っており、コスト面で有利になるケースもある。
このほか、本紙6月3日号でお伝えした通り、今年はPCメーカー各社が「AI PC」の普及に力を入れ始め、マイクロソフトはAI処理に最適化したPC規格の「Copilot+ PC」を打ち出した。マイクロソフトは、PC上でも高い精度が得られるとする小型LLMの「Phi-3」も4月に発表している。クラウド大手が自社基盤へのAIアプリケーションの囲い込みを強化する一方、ローカルで動作する“オンデバイスAI”の動きにも今後注目が高まると予想される。
“生成AI元年”だった2023年に引き続き、24年に入ってもエンタープライズITの世界では新しい大規模言語モデル(LLM)や巨額の投資、大型のパートナーシップなど、生成AIに関する発表が相次いでいる。わずか1年前の業界地図が古びてしまうほど、この領域でのテクノロジーやビジネスの構造の変化は激しい。世界の大手IT企業はどのように生成AIに取り組み、今後に向けてどんな戦略を描いているのか。24年前半の動きを振り返り、企業の情報システムに生成AIが与える影響を探る。
(文/日高 彰)
米OpenAI
今年に入っても、生成AI市場における話題の中心となっているのは米OpenAI(オープンエーアイ)だ。5月には新たなAIモデルの「GPT-4o」を発表。名称に付く「o」は「すべての」「全方位」などを意味するomniから取られているという。テキストだけでなく、画像や音声の処理も単一のニューラルネットワークで行う仕組みを採用したことから、このように名付けられているとみられる。
OpenAIが公開した「GPT-4o」のデモンストレーション映像。
「I〓ChatGPT」と書かれた画像を見せられ、AIが照れ笑いを含みながら回答する様子が披露された
※〓は絵文字のハート
テキスト以外の情報もまとめて処理できる、「マルチモーダル」なAIへの進化をさらに志向した。例えば、音声で指示を入力し、その返答を音声で得るといった処理もスムーズに行える。従来の「GPT-4」でも音声での対話は可能だったが、入力された音声をいったんテキストに変換して解釈し、生成したテキストを再び音声に変換して出力していたため反応に時間がかかったほか、声の抑揚や話すスピードなどに含まれる情報も失われていた。GPT-4oではより自然にやりとりできるようになることが期待される。
性能を示す数値としては、音声に対する応答時間がGPT-3.5では平均2.8秒、GPT-4では同5.4秒だったのに対し、GPT-4oでは同0.32秒と、大幅に高速化したことが示されている。OpenAIが公開したデモンストレーション映像では、GPT-4oが人間同士の会話に近いテンポでユーザーと対話するシーンが披露されたほか、人の表情を認識したり、音声での返答中にわずかに言葉に詰まったりと、より“人間らしい”反応を示すことが明らかになった。
また、テキストをAIが理解可能な形式に分割・変換する、「トークナイザー」と呼ばれる処理において、多言語で圧縮率を向上した。日本語では圧縮率が1.4倍となり、これまでより少ないトークン量で処理が可能となる。GPT-4oは、主力製品である「GPT-3.5 Turbo」に比べるとトークンあたりのAPI利用価格は10倍と高価だが、これまで最上位製品だった「GPT-4 Turbo」よりは安価に設定されている。トークナイザーの圧縮率向上と合わせると、性能の割には安く使える値付けとなっており、OpenAIは最新のモデルへの移行を積極的に促していく姿勢を見せている。
生成AIは、自然言語でユーザーとの対話が行えることが最大のメリットとされ、さまざまな業務システムへの組み込みが進んでいる。しかし、応答時間の問題があったため、特定の業務に習熟したユーザーにとっては、求める情報が得られるまでのタイムラグでストレスが生じたり、自然言語ではなく従来のシステムが理解可能なコマンドを学んだほうが実用的だったりと、生成AIが必ずしも生産性向上につながらない課題があった。GPT-4oのように高速で、しかもユーザーの表情や声の調子からより多くの文脈を理解できるAIモデルが利用可能となれば、AIを“優れた同僚”として活用し業務を効率化できる可能性が広がる。
ただ、5月中旬の発表と同時にGPT-4oのAPIは利用可能となったが、高度な音声認識機能については今後一部ユーザーに対して提供するという段階で、すべてのユーザーに公開されるのは今年秋頃になる予定。リアルタイムでの音声対話が可能になるのはまだ先のことであり、デモンストレーション映像の中で示された新機能の内容はやや先走りの感も否めない。
世界中で生成AI向けの計算資源が争奪戦となっている中、OpenAI自身もLLMの開発やサービス提供に必要となるGPUサーバーの確保に奔走している。6月には、米Oracle(オラクル)と協業し、LLMの構築用に「Oracle Cloud Infrastructure(OCI)」を新たに採用することを発表した。OpenAIはこれまで出資を受ける米Microsoft(マイクロソフト)のクラウド基盤を主に使用していたが、それだけでは今後の需要を満たせないと判断したとみられる。
この協業はオラクル、マイクロソフト、OpenAIの3社による提携で、マイクロソフトのクラウドサービスである「Azure」をOCI上に拡張するかたちで実現するという。オラクルは、自社が支援するカナダのCohere(コヒア)や、イーロン・マスク氏が主導しチャットボット「Grok」などを開発する米xAI(エックスエーアイ)などにもOCIを提供しており、生成AIによるコンピューティング需要の急騰をOCI事業の成長につなげていく考えだ。
また、企業の業務への生成AI導入に関しては、AIの安全性についてリスクを指摘する声は絶えない。OpenAIの設立者の一人で、チーフサイエンティストを務めていたイリヤ・サツキバー氏が同社を退職するというニュースが、GPT-4oの発表直後に生成AI業界では話題となった。同氏は、今後AIがより高度に進化する中で、人間社会にとって望ましくない動きをするようになることを懸念。AIの動作をコントロールする取り組みを、OpenAI内の「スーパーアライメントチーム」で進めていたが、同社はこのチームを解散した。
サツキバー氏の退職の理由は明らかになっていないが、生成AIをめぐってはプライバシーや著作権、セキュリティーなどの問題が常に指摘されており、OpenAIは欧米の大手メディア企業などと協業を進める一方で、著作権を侵害したとして新聞社や著作者団体など複数の権利者から訴えられている。OpenAIの技術が企業にとって安心して導入できるものなのか、慎重に見極めていく必要がある。
(文/日高 彰)

米OpenAI
人と自然に対話できる「GPT-4o」を発表
今年に入っても、生成AI市場における話題の中心となっているのは米OpenAI(オープンエーアイ)だ。5月には新たなAIモデルの「GPT-4o」を発表。名称に付く「o」は「すべての」「全方位」などを意味するomniから取られているという。テキストだけでなく、画像や音声の処理も単一のニューラルネットワークで行う仕組みを採用したことから、このように名付けられているとみられる。
「I〓ChatGPT」と書かれた画像を見せられ、AIが照れ笑いを含みながら回答する様子が披露された
※〓は絵文字のハート
テキスト以外の情報もまとめて処理できる、「マルチモーダル」なAIへの進化をさらに志向した。例えば、音声で指示を入力し、その返答を音声で得るといった処理もスムーズに行える。従来の「GPT-4」でも音声での対話は可能だったが、入力された音声をいったんテキストに変換して解釈し、生成したテキストを再び音声に変換して出力していたため反応に時間がかかったほか、声の抑揚や話すスピードなどに含まれる情報も失われていた。GPT-4oではより自然にやりとりできるようになることが期待される。
性能を示す数値としては、音声に対する応答時間がGPT-3.5では平均2.8秒、GPT-4では同5.4秒だったのに対し、GPT-4oでは同0.32秒と、大幅に高速化したことが示されている。OpenAIが公開したデモンストレーション映像では、GPT-4oが人間同士の会話に近いテンポでユーザーと対話するシーンが披露されたほか、人の表情を認識したり、音声での返答中にわずかに言葉に詰まったりと、より“人間らしい”反応を示すことが明らかになった。
また、テキストをAIが理解可能な形式に分割・変換する、「トークナイザー」と呼ばれる処理において、多言語で圧縮率を向上した。日本語では圧縮率が1.4倍となり、これまでより少ないトークン量で処理が可能となる。GPT-4oは、主力製品である「GPT-3.5 Turbo」に比べるとトークンあたりのAPI利用価格は10倍と高価だが、これまで最上位製品だった「GPT-4 Turbo」よりは安価に設定されている。トークナイザーの圧縮率向上と合わせると、性能の割には安く使える値付けとなっており、OpenAIは最新のモデルへの移行を積極的に促していく姿勢を見せている。
生成AIは、自然言語でユーザーとの対話が行えることが最大のメリットとされ、さまざまな業務システムへの組み込みが進んでいる。しかし、応答時間の問題があったため、特定の業務に習熟したユーザーにとっては、求める情報が得られるまでのタイムラグでストレスが生じたり、自然言語ではなく従来のシステムが理解可能なコマンドを学んだほうが実用的だったりと、生成AIが必ずしも生産性向上につながらない課題があった。GPT-4oのように高速で、しかもユーザーの表情や声の調子からより多くの文脈を理解できるAIモデルが利用可能となれば、AIを“優れた同僚”として活用し業務を効率化できる可能性が広がる。
ただ、5月中旬の発表と同時にGPT-4oのAPIは利用可能となったが、高度な音声認識機能については今後一部ユーザーに対して提供するという段階で、すべてのユーザーに公開されるのは今年秋頃になる予定。リアルタイムでの音声対話が可能になるのはまだ先のことであり、デモンストレーション映像の中で示された新機能の内容はやや先走りの感も否めない。
世界中で生成AI向けの計算資源が争奪戦となっている中、OpenAI自身もLLMの開発やサービス提供に必要となるGPUサーバーの確保に奔走している。6月には、米Oracle(オラクル)と協業し、LLMの構築用に「Oracle Cloud Infrastructure(OCI)」を新たに採用することを発表した。OpenAIはこれまで出資を受ける米Microsoft(マイクロソフト)のクラウド基盤を主に使用していたが、それだけでは今後の需要を満たせないと判断したとみられる。
この協業はオラクル、マイクロソフト、OpenAIの3社による提携で、マイクロソフトのクラウドサービスである「Azure」をOCI上に拡張するかたちで実現するという。オラクルは、自社が支援するカナダのCohere(コヒア)や、イーロン・マスク氏が主導しチャットボット「Grok」などを開発する米xAI(エックスエーアイ)などにもOCIを提供しており、生成AIによるコンピューティング需要の急騰をOCI事業の成長につなげていく考えだ。
また、企業の業務への生成AI導入に関しては、AIの安全性についてリスクを指摘する声は絶えない。OpenAIの設立者の一人で、チーフサイエンティストを務めていたイリヤ・サツキバー氏が同社を退職するというニュースが、GPT-4oの発表直後に生成AI業界では話題となった。同氏は、今後AIがより高度に進化する中で、人間社会にとって望ましくない動きをするようになることを懸念。AIの動作をコントロールする取り組みを、OpenAI内の「スーパーアライメントチーム」で進めていたが、同社はこのチームを解散した。
サツキバー氏の退職の理由は明らかになっていないが、生成AIをめぐってはプライバシーや著作権、セキュリティーなどの問題が常に指摘されており、OpenAIは欧米の大手メディア企業などと協業を進める一方で、著作権を侵害したとして新聞社や著作者団体など複数の権利者から訴えられている。OpenAIの技術が企業にとって安心して導入できるものなのか、慎重に見極めていく必要がある。
この記事の続き >>
- 米Google 「Workspace」との統合を加速
- 米Anthropic アマゾンとグーグルが出資する対抗馬
続きは「週刊BCN+会員」のみ
ご覧になれます。
(登録無料:所要時間1分程度)
新規会員登録はこちら(登録無料) ログイン会員特典
- 注目のキーパーソンへのインタビューや市場を深掘りした解説・特集など毎週更新される会員限定記事が読み放題!
- メールマガジンを毎日配信(土日祝をのぞく)
- イベント・セミナー情報の告知が可能(登録および更新)
SIerをはじめ、ITベンダーが読者の多くを占める「週刊BCN+」が集客をサポートします。 - 企業向けIT製品の導入事例情報の詳細PDFデータを何件でもダウンロードし放題!…etc…
- 1
