人工知能(AI)技術の進展や深刻な人手不足、AIスピーカーの登場による一般への認知度の向上などを背景に、音声認識への関心が高まっている。AI音声認識エンジン「AmiVoice」を手がけるアドバンスト・メディアは、2018年3月期業績が過去最高を記録し、黒字化を実現。26年3月期までに売上高を8倍、営業利益率を30%に拡大する中長期計画をぶち上げた。鈴木清幸・代表取締役会長兼社長は、世界最高レベルと謳う技術力に自信をみせる。
売上倍増は最低ライン
──2018年3月期は過去最高の業績を記録しました。どう評価していますか。
確かに、業績はようやく伸びてきました。ただ、一回限りでは意味がなく、決算発表時に明らかにした中長期計画「BSR(Beyond Speech Recognition)3×3」で示したとおり、意味をもった3年間を3回繰り返していくことが重要です。その一年目の成果として、目標を大きく超えた意味での満足感はある。しかし、本来の計画は、最初の3年間で、売上高を最低でも2倍にすること。次の2年も継続して伸ばします。
──3年間での売上高倍増は非常に意欲的な目標だと思えますが、最低限の達成ラインなのですか。
もちろんそうです。東証では予想値ということで、絶対に達成できる数値(19年3月期予想は売上高40億円、営業利益7億円)を発表していますが、私の予測では売上高49億円、営業利益11億円は可能とみています。実際にどれくらい伸ばせるかはこれからのやり方次第で、非常に面白いところです。
私は20年間やって土台をつくってきました。人を教育して、彼らも育ってきた。それによって、“Beyond”といいますか、実力を発揮できる状況になった。当社のコアであるAI音声認識技術は、GAFA(グーグル、アップル、フェイスブック、アマゾン)にも負けない。利益が伸びてきたことで、はっきり言って理想的なビジネス状況になっている。
──業績が伸びた主な要因は何でしょうか。
リーダーが目標をつくって、プレイヤーがきちんと売り上げをあげるためのサポートをする。この役割分担をしっかりとやり、効率よく結果をだす集団づくりを地道にやってきただけの話です。もちろん、そのための手法やツールはいっぱいありますよ。その一つひとつを説明することもできますが、それにはすごく時間がかかります。
──代表的な例を挙げるならどんなものがありますか。
例えば、ピーター・ドラッカーのマネジメント論が跋扈(ばっこ)するような日本で定着している目標管理型という考え方では経営をしていない。目標管理型は、ノルマをつくり、そのギャップを埋めていくという考え方です。ただし、残念なことに経営者が目標を設定しても、その目標にどうやっても到達できない世界が存在する。ゼロをイチにして市場をつくる場合がそれです。この場合にはどう対処するか、私は社員と自分を成長させながら方法を編み出し、それを実践している。そして、それを進化させ続けているのです。20年間もね。
つまり、失敗しないと成功は得られない。失敗は、その一時点の評価では失敗かもしれない。けれども、それが成功につながったら失敗ではなかったということになる。こうしたピンチをチャンスに変えるのが、私のやっていること。追い込まれて、必死で死地から生地に抜け出すやり方を実践するなかに、成長の源泉は隠れているのです。
GAFAは強敵ではない
──技術力に自信をもっておられますが、どれほど優れているのですか。
世界最高の技術をつくり上げていて、自信があります。はっきり言って、GAFAより優れています。だから、彼らは日本市場で勝つことはできません。
われわれは音声認識で20年の歴史をもっています。最近では、深層学習の発展技術であるリカレントニューラルネットワークの「LSTM(Long Short-Term Memory)」を「AmiVoice」に実装し、認識精度や計算速度が飛躍的にあがりました。まず、このコアの部分でGAFAに勝っている。
さらに、BtoBのデータをもっている。音声認識は、音響処理と言語処理とを同時に行いますよね。ただ、音響処理はディープニューラルネットワークが効くものの、言語処理にはこれが効かない。従来のマシンラーニングのほうが効くんです。われわれは、機械学習で精度をあげるためのデータとノウハウをもっている。しかし、GAFAにはこれがない。彼らが追いつくには、われわれがかけたのと同じくらいの年数が必要なんです。これは優秀な人材がやっても同じこと。だから、音声認識はわれわれの独壇場になっている。
──客観的なデータとして優位性は示せますか。
例えば、医療の領域で、5行程度の文章を入力する例を挙げましょう。スマートデバイスでフリック入力した場合、慣れた人がやって391秒でした。これをアップルのSiriで音声入力すると、修正する時間を含めて245秒、グーグルだともっと時間がかかります。一方、AmiVoiceなら130秒です。
これがtoCの場面だったら、1回きりの入力で終わるので、精度の違いは大きな問題にならないかもしれません。しかし、ビジネス現場で使うとなると、1日の多くの時間を入力作業に充てることになる。作業が1時間で終わるのか、2時間で終わるのかは大きな違いです。さきほどのは医療の事例ですが、昨年9月に発表した土木・建築業界向けのツールでは、GAFAよりも6~8倍の性能を出しています。だから、この業界はわれわれのビジネスにとって一つの市場になり始めています。
別の事例もあります。あるインタビューの音源を書き起した場合、事前に何も教えていない状態だと、音声認識では間違いや不足する部分がでてきますが、正答率はグーグルが77%でAmiVoiceは88%でした。これが実力の違いです。
──GAFAは今後も脅威にはならないのでしょうか。
GAFAの音声認識は、「使えば使いこむほど精度が上がる」と言われていますよね。これは、自己進化論なんです。自己進化というのは結局、最大公約数を出すようなもの。でも、BtoBの音声認識の世界では、それはできない。業界や専門性の異なるABCDの4社があったとして、B社が芸能関係だったとき、「一郎」といえば、芸能関係の「イチロー」が出てこないといけないですよね。しかし、同じ「一郎」でも、食品や薬品関係では違う意味の場合がある。言語処理は企業ごとで大きな差があり、機械学習のほうが効果がある。だから、GAFAはわれわれのレベルに到達できない。使い込むほど、自己進化して精度が上がる領域はtoCに限られているんです。ただし、そこはわれわれにとっての市場ではない。
[次のページ]日本はあたりまえ、次はアジアへ