ニュース

データ・タング(数据堂科技) AIの学習用データ整備に特化 面倒な作業を請け負うスタイルで急成長

2020/01/30 09:00

週刊BCN 2020年01月27日vol.1810掲載

「AIとデータ」は「小麦粉とパン屋」の関係

 AIの学習用データの整備に特化したユニークなビジネスを手掛けるデータ・タング。AIアプリケーションやエンジン、アルゴリズムを開発するベンダーやユーザー企業とは、「競合」ではなく「協業」の関係が成り立つ。例えるならば、「小麦粉の卸」と「パン屋、ケーキ店、うどん屋」の関係に類似し、業種・業態に合わせて最適な「小麦粉=学習用データ」を提供する。ここからは、業務全般を統括する副総裁COO、技術担当で共同創業者のCTO、マーケティング責任者、そして日本法人社長のそれぞれの幹部へのインタビューを通じて、データ・タングをより立体的に見ていく。

「データファクトリー」がカギ握る

 データ・タングの心臓部となるのが河北省の保定や南京、合肥に開設する「データファクトリー」だ。取得したAI学習用のデータは、このデータファクトリーに集約され、AIが学習しやすい規格に合わせて修正されたり、アノテーションと呼ばれる属性情報を付与していく。

 先進運転支援システム(ADAS)用の学習データであれば、歩行者や自転車、道路標識、樹木、建物などの識別を行い、歩行者なら歩行者、樹木なら樹木といった具合に属性情報をつけていく。運転者の表情から「眠そうだ」「注意散漫だ」といった判断ができるようなデータも揃える。また、ファッション(服飾)用の学習データであれば、ワンピースやスカート、上着、ネクタイの付帯情報を付け加えることで、AIはより効率よく、どんな服装なのかを認識できるようになる。

 AI技術を駆使するなどして、こうしたデータ処理の8割を自動化できたとしても、2割は人手で修正しなければならず、どうしても人手が必要となる。データ・タングの従業員の半分ほどをデータファクトリーをはじめとするデータ整備に割り当て、「最後は人の目で確認して、品質を維持している」と、データ・タングの業務全般を統括する何鴻凌・副総裁COOは話す。
 
何鴻凌・副総裁COO

 創業時からこれまで、データ・タングはデータ整備の自動化、効率化に力を入れてきた。どれだけ自動化できるかでコストが決まり、競争力を大きく左右する。データファクトリーは、データ整備のノウハウの集大成であり、日本向けのビジネスでも、このデータファクトリーをフルに活用して、ユーザー企業が求めるAI学習用データを提供していく。

 データ・タングの立ち位置を分かりやすく例えれば、「小麦粉の卸業者」(何COO)だという。ユーザー企業は「パン屋」「ケーキ店」「うどん屋」とさまざまな業態があり、それぞれに適した小麦粉を卸販売する。現実に当てはめると、ADASやセキュリティ、コンタクトセンター、翻訳、小売り、エネルギー、スマートシティなど多様な分野でAIは活用されており、それぞれに適したデータ形式に加工して販売する。データ・タングはユーザー企業と競合するAI領域には進出せず、相互に協力関係が築ける立ち位置を維持する(図2参照)。
 

 AIのアルゴリズムやエンジン、アプリケーションを開発するITベンダーやユーザー企業は数多くあるが、その前工程の学習用データ整備に特化したビジネスモデルが評価されるかたちで、中国国内のみならず、すでに米国や韓国でのビジネスが軌道に乗りつつある。今回、日本市場に進出することで海外ビジネスを一段と伸ばしていく。

データ保護を最優先に技術を開発

 AIの学習用データには、人の顔をはじめ個人情報を含むケースがある。近年では個人情報保護の観点からデータを保護する動きが世界各国・地域で見られる。データ・タングでは、中国をはじめ進出先の日本、米国、韓国などの法規制に準拠した合法的なデータであることに特別な注意を払っている。とりわけ個人を特定できるデータについては、データの取得後、特別な加工を施して「加工後のデータから個人を特定できないようにする技術開発も行った」と、共同創業者で技術全般を担当する豊強沢共同創業者CTOは話す。
 
豊強沢・共同創業者CTO

 具体的には、顔認識では複数の人の顔をランダムに合成して、架空の人物像をつくることで、元の個人にさかのぼれないようにする。人の肉声を収録した場合も、AI学習の精度に影響が出ないよう声紋を除去するなどして、個人の特定を不可能にするといった加工を施している。

 個人情報を含むデータの取得に当たっては、すべて本人の同意を得ているが、その上で個人を特定できないよう加工する多重的な保護の仕組みをつくっている。こうして保護されたデータは、19年末時点で2.5ペタバイトの容量に達しており、データの種類や量は日々増えている。ユーザー企業の要望に適合し、その企業が活動する各国・地域のデータ保護規制に対応したデータをすぐに提供できる点をデータ・タングの大きな強みにしている。

 ユーザー企業によっては、自社で取得したデータをデータ保護の観点から外部に出さないケースもある。データ・タングの強みは、徹底的に自動化、標準化したデータファクトリー設備を使ってのデータ整備にある。こうしたケースの場合は、例えばクラウド上にユーザー企業とデータ・タングの担当者だけがアクセスできる閉じた作業空間をつくり、そのなかだけで作業をする技術開発にも取り組む。

 データファクトリーは、物理的なセキュリティや、権限を持つ担当者しかユーザーデータに触れられない認証の仕組みなどを揃えており、「ユーザー企業に、当社のデータファクトリーに見学にきてもらい、その目でセキュリティの堅牢さを確かめてほしい」(豊CTO)と、データ保護に関してユーザー企業から信頼してもらえる技術の開発や、設備の拡充に力を入れている。

日本市場への進出は「天の時」だ

 データ・タングの馬艶・マーケティングマネージャーは、「マーケティングが成功する基本は『天の時、地の利、人の和』にある」と話す。ネット企業が先行していたAI活用だが、これからは自動車、電気、エネルギーといったあらゆる業種・業態でAI活用が進む。日本市場に目を向けるとDX推進を追い風に、データを価値に変える動きが活発化している。
 
馬艶・マーケティングマネージャー

 アジア太平洋地域(APAC)で産業規模が大きいのは、なんと言っても日本市場であり、馬マーケティングマネージャーは、「日本ではDX推進という『天の時』、既存の産業セクターの規模が大きく、伸びしろの大きい市場が存在するという意味で『地の利』がある」と話す。「人の和」については、中国と日本の両方の市場に精通したビジネスパートナーである成都維納軟件(成都ウィナーソフト)グループとの出会いがあった。この1月に開設した日本法人は、すでに日本に拠点がある成都ウィナーソフトグループと協業のもと立ち上げたものだ。

 奇しくも、創業者の斉CEOと豊CTOは、ともにNEC中国法人の同僚。日本の情報サービス市場にも精通しており、人脈もある。NEC時代、豊CTOは機械学習の一種のディープラーニング(深層学習)の研究に従事していた。そのときに課題となったのが、ディープラーニングで必要となる大量のデータを揃えるのに多大な手間がかかったこと。

 本来的なAIの研究よりも、顔や声といったデータを個人から許諾を得た上で集めることのほうに時間が取られた経験を経て、「じゃあ、許諾済みのデータを大量に集めたら世の中のAIの発展に大いに役立つし、ビジネスになる」(豊CTO)と考え、データ・タングの起業につながっている。

「安全で、素早く、品質よく」を柱に

 データ・タングは、今年1月、日本法人を設立した。設立に当たっては日本と中国の両方の市場でビジネスを手掛ける成都ウィナーソフトグループが協力しており、代表取締役社長にはウィナーソフトグループ副総裁兼広州分公司総経理、グループ会社のウィンリッヂ取締役常務執行役員を兼務する神部育也氏が就任している。
 
データ・タング日本法人
神部育也 代表取締役社長

 幅広い産業でAI活用が進むいま、AIを賢くする“糧”となるのが学習用データであり、「データをどう収集し、AIが学習しやすいよう加工するのかは、日本の多くのユーザー企業やITベンダーの課題として横たわっている」と神部社長は指摘。このAI活用に当たっての共通の課題が共有されつつある今こそ、「学習用データ整備の専門会社であるデータ・タングにとって日本進出の最適なタイミング」だと捉えている。

 日本のユーザー企業は、自ら取得したデータを外部に出すことに抵抗を感じるケースが多いことが見込まれるため、いかにセキュアな環境で、データ・タングが強みとする高度に自動化されたデータの加工工場「データファクトリー」の機能を使うかがポイントになる。顔や音声の認識といった汎用的な用途であれば、データ・タングがすでに保有しているデータを使ってAIに学習させればいいが、業務でAIを使う場合、データの発生源はユーザー企業の業務に現場にあるケースがほとんどだ。

 つまり、ユーザー企業が最も多くのデータを持っており、このデータをしっかり保全した上でデータ・タングのデータファクトリーを活用することがビジネス成功のカギを握る。神部社長は、「AIを賢くするには、データの量もさることながら、日々発生するデータを学習し続けることが大切」と指摘。AI活用に積極的なITベンダーやユーザー企業、研究機関などを主な顧客ターゲットとして、安全で、素早く、品質よくデータ整備を請け負うデータ・タングのサービスを売り込んでいく。