ニュース

データ・タング(数据堂科技) AIの学習用データ整備に特化 面倒な作業を請け負うスタイルで急成長

2020/01/30 09:00

週刊BCN 2020年01月27日vol.1810掲載

 【中国・北京発】AI(人工知能)の学習用データ整備に特化したデータ・タング(数据堂)が、この1月、日本に進出した。AIの性能を高めるには、AIが学習しやすいよう規則化された学習用データが不可欠。AI開発のおよそ8割が学習用データの取得や整備に費やされるとされる。データ・タングはこの部分を丸ごと請け負うことで、AIのアルゴリズムやアプリケーション、サービスを開発するベンダーの作業工数やコストを軽減。高性能なAIを効率よく実現できるよう支援するユニークなビジネスモデルを構築している。旺盛なAI活用需要を背景に、近年、急成長しているAI関連ベンダーだ。

工数の8割がデータの取得と整備

 中国のIT企業が数多く集まる北京・中関村。近年ではAI(人工知能)関連の企業の集積度が高まっており、2011年に創業したデータ・タングもその1社だ。データ・タングの特徴は、AIの性能を高めるのに欠かせない学習用データを収集し、AI学習に使えるよう整備する工程に特化している点。AIエンジンやアプリケーションを開発する企業は多いが、学習用データの収集・整備に特化するビジネスモデルは「中国国内のみならず、世界的に見てもとてもユニークな存在」だと、創業者の斉紅威CEOは胸を張る。
 
中国IT企業が数多く集積する北京「中関村」。
写真はデータ・タングが本社を置くオフィスビル


 グループの社員数はおよそ500人の体制。データ整備を極力自動化することで、最小限の人員で効率よく作業を行っている。2018年12月期の売上高は約1億元(約16億円)。旺盛な学習データの需要に支えられ、売上高は毎年40~50%程度の勢いで伸びている。今年1月には日本市場にも本格的に進出した。

 画像や音声の認識といったAIは、整備済みのデータを学習させることで性能が高まる。例えば、顔認識であれば、映し出された画像のどの部分が人の顔で、目はどこにあって、性別、おおよその年齢などを分かるようにするには、それなりの規模の学習用データが必要になる。音声会話やチャットボットについても同様だ。

 学習用データを取得し、AI学習用に適したデータ形式に揃えるのは手間がかかる作業で、「AIを使ったサービスやアプリケーション開発に必要な工数のおよそ8割がデータ取得、整備に費やされる」という。データ・タングは、この8割の部分を請け負うことで、AIをより低コストで、効率よく活用できるよう支援する。

幅広い業種でAI活用が進む

 AI活用市場を見渡してみると、スマートフォンの普及とともに急成長した米国のGAFAや、中国の百度(バイドゥ)、アリババ、騰訊(テンセント)――いわゆるBATと呼ばれる企業を中心にAI活用が急速に進んだ。彼らはAI学習用のデータをオンラインで独自に収集。AIの性能を飛躍的に高め、従来になかった利便性の高いAI活用型のサービスを次々と打ち出した。そして、これからは自動車や電機、エネルギー、金融、不動産、教育といった幅広い業種でAIの活用が急ピッチで進むと見られている(図1参照)。
 

 大手ネット系企業は、自分たちでデータを収集、整備することが可能だが、そうしたデータの扱いに慣れていない業種では、データ収集のハードルは高いと言わざるを得ない。とりわけ個人を特定できるようなデータは、データ保護の観点から難易度はより高くなる。さらに、業種によっては汎用的な画像や音声の認識ではなく、業務に特化した画像や語彙の収集が必要になる。データ・タングでは、個人情報の保護や、業務特化型のデータ収集にきめ細かく対応していくことで、「今後、AI活用が進む多様な業種・業態の需要を取り込んでいく」方針だ。

DX推進が日本のAI活用を後押し

 データ・タングが、日本市場へ本格参入を決めたのも、日本国内におけるデジタルトランスフォーメーション(DX)推進の流れのなかで、これまでAIと接点が薄かったような業種・業態でも、AIを活用したビジネス変革が進むと見込まれるからだ。ここでネックになるのが、データの収集と整備が思いのほか工数がかかる点。この部分を丸々請け負うことで、日本の幅広い業種・業態におけるAI活用を後押し、結果的に売上増につながると見ている。
 手間がかかるデータ収集や、集めたデータをAIが学習しやすいよう適正化する作業は、データ・タングが北京から100キロ余り離れた保定や、上海から内陸に入った南京、合肥といった都市に開設した「データファクトリー」と呼ばれる拠点で主に行っている。集めたデータを、まるで近代的で自動化された工場のように、流れ作業で整備、適正化。複数のユーザー企業向けのデータをデータファクトリーに集約し、効率よく整備することで高い品質を維持し、コストを抑える手法を確立させ、競争力を高めている。

 ここからは、データ・タングの幹部へのインタビューを通じて、同社のビジネス戦略をより詳しくレポートする。
 

斉紅威・創業者CEO

 1975年、中国河北省生まれ。98年、河北工科大学機械工学科卒業。2001年、同大学院修士課程修了。04年、中国科学院自動化研究所にて人工知能のパターン認識で博士号取得。同年NEC中国研究所に入社。知的情報処理研究部長、上級研究員を務める。06~07年、スタンフォード大学コンピューターサイエンス学科客員研究員。11年、数据堂(北京)科技を設立、CEOに就任。中国コンピューター協会ビッグデータ専門委員会、同協会YOCSEF(Young Computer Scientists & Engineers Forum)学術委員会のメンバーも務める。

[次のページ]「AIとデータ」は「小麦粉とパン屋」の関係