今やAI技術のメインストリームとなったディープラーニング。長年研究レベルだったディープラーニングの実用化が急速に進んだのは、GPUコンピューティングを中心とする強力なITインフラが、一般企業でも利用可能なレベルに下りてきたからだ。ディープラーニングとは何かを今一度振り返るとともに、ディープラーニング向けに登場した最新製品の動向を追う。(取材・文/日高 彰)
●実用的なAIを実現した機械学習 ここ12年の間、人工知能(AI)の新たな活用方法が毎日のように提案されているが、IT業界の歴史を振り返ると、AIはブーム的に期待を集めながらも、その後幻滅期を迎えるというサイクルを繰り返してきた。しかし、2010年代に入って盛り上がった現在のAIブームは、これまでとは違った様相を呈している。
何より、IBMの「Watson」がクイズ王を打ち負かしたり、グーグル傘下のDeepMindによる囲碁プログラム「AlphaGo」が世界トップクラスの棋士を破るなど、コンピュータの知能が人間を上回るのは当分先と思われていた分野で、AIが勝つ例が次々と登場している。また、音声認識や機械翻訳のような身近なオンラインサービスでも、最新のAI技術を採用することによって飛躍的に精度を向上させたものが出てきており、日常生活でもAIの威力を実感できるシーンが増えてきた。自動車の自律走行や、AIによる難病の治療法の指南など、フィクションのなかにしかなかったアプリケーションも、遠い未来の話ではなくなりつつある。
過去に提案されたもののうまくいかなかったAIと、成功を収めつつあるようにみえる現代のAIの違いは何か。ブレイクスルーとなったのは、機械学習の実用化だろう。かつてのAIは、ある問いが入力されたときにどのような答えを出すか、そのルールをコンピュータプログラムの形で記述したものだった。
これは、届いた電子メールが迷惑メールか否かを判定するにあたって、「件名または本文にdrug/loan/pornoのいずれかの文字列を含むもの」「本文中に海外サイトへのリンクを含むもの」といったように、迷惑メールにあてはまる条件を一つひとつ列挙していくようなものだ。このルールにあてはまる迷惑メールは確実にフィルタリングできるが、ルールから少しでも外れたもの、例えばdrugでなく「medicine」を含むメールは排除できない。人間の判定に近づけるには大量のルールを用意する必要があり、新手の迷惑メールの登場の度にルールを追加しなければならない。
これに対して機械学習では、迷惑メールとそうでないメールのサンプルを大量に用意し、迷惑メールにより多く含まれる単語を「高スコア」の語とコンピュータに学習させておく。新しいメールが届いたら、それに含まれる単語をもとにメールにスコアを付け、一定以上のスコアのメールは迷惑メールであると判定すればいい。スコアがボーダーラインに近いメールでは判定を間違うこともあるが、そのときは誤判定したメールを学習することで、将来の判定精度を高めることができる。
機械学習のコンセプト自体は新しいものではないが、その実用化にあたっては主に二つの課題が立ちはだかっていた。まず、それまでのコンピュータでは性能が不足していた。迷惑メールのフィルタリング程度であればPCレベルでも以前から可能だが、大量の画像や音声を学習するには荷が重かった。コンピュータの高性能化、低価格化は機械学習の実現には欠かせなかった。
そして、もう一つの重大な課題として、AIに学習させるデジタルデータそのものが、従来のAIブーム期には圧倒的に不足していた。機械学習では、学習のアルゴリズムはもちろん重要だが、それ以上に学習用データの質と量が、結果の精度を大きく左右する。デジタル機器やインターネットが普及し、世の中のあらゆる情報のデジタル化が進んだことで、成長の糧としてAIに食べさせるデータが大量に生成されたことが、機械学習の急速な進化をもたらしたという点は見逃せない。
●ディープラーニングはAIの“独り立ち” さて、機械学習によってAI開発は、人間がもつ知識や知性を人手でルール化するというアプローチから解放されたわけだが、それでも、元となる大量のデータからどんな特徴を抽出するかは、依然として人の手で決めてやる必要があった。
例えば、AI技術の応用としてしばしば取り上げられる、画像を自動的に分類する作業。ネコと人間の顔画像をそれぞれ大量に学習し、動画からネコが写っているシーンを画像として切り出すといったものだが、従来の機械学習では、「顔の色」「輪郭の形」「目鼻の位置」といった、画像に含まれる情報からどんな特徴を抽出して学習するかは、人間が決めていた。
この場合、人間が決めた特徴がネコの顔を識別するため本当に役立つかは、AIを設計する時点ではわからないことも多い。ひょっとしたら、AIの開発者が想定していなかった「目鼻の形」のほうが、ネコの顔を特徴づける要素としては適当かもしれない。十分に精度の高い結果を得られる特徴を抽出できるかは、結局のところそれを決める人間の手腕にかかっていた。
この問題を解決するのがディープラーニングだ。ディープラーニングを用いたAIは、ネコの画像を大量に取り込むなかで、「何がネコの顔を特徴づけているか」を自ら学習していくので、人間が「画像のなかからこの特徴を抽出せよ」とAIに指示する必要がない。それどころか、人間は指示せず、データまかせにしたほうがいい結果が出ることが多いという。
画像データベースプロジェクト・ImageNetが開催する画像認識競技会「ILSVRこC(ImageNet Large Scale Visual Recognition Contest)」では、従来型の機械学習では認識誤り率が約26%までしか改善できなかったのに対し、2012年にディープラーニングを用いたシステム「AlexNet」で参戦したカナダ・トロント大学が、誤り率約16%という劇的な改善を実現。15年には、マイクロソフトリサーチが誤り率5%以下を実現し、この時点で人間の認識精度を超えたとされている。
ディープラーニングも機械学習の一種ではあるが、膨大なデータのなかからどのように特徴を抽出するか、という難しい課題までも機械に任せられるようにしたことで、AIに飛躍的な性能向上をもたらした。AIの歴史を振り返ると、コンピュータが人の手を借りることなく自ら学習できる範囲が広がる度に、大きな成長を遂げているようにみえる。ディープラーニングの実用化は、AIが“独り立ち”の時期を迎えたと言い換えることができるだろう。
[次のページ]