視点

政府公開データをAI-readyに

2025/07/23 09:00

週刊BCN 2025年07月21日vol.2068掲載

 生成AIは、労働力不足や経済停滞といった日本の構造的課題を克服するかぎとして期待されている。しかし、そのポテンシャルを社会実装する上で、深刻なボトルネックが存在する。AIが利用可能な高品質で信頼性の高い政府公開データの不在だ。

 現在、e-Gov法令検索や政府統計の総合窓口(e-Stat)で公開されるデータの多くは、人間が読むためのPDFや、CSV形式にとどまる。これらはAIにとって「判読可能」ではあっても「理解可能」ではない。AI開発では、この判読と理解のギャップを埋めるための膨大なデータ前処理に、プロジェクトの時間とコストの大半が費やされる。特に資金力や技術力に乏しい中小規模組織にとって、官民問わず、これはイノベーションの機会を奪う高い参入障壁となる。

 この国家的課題を解決するため、政府はデータの提供方法を根本から変革すべきである。単に情報を「公開」する役割から一歩踏み出し、AIが直接利用可能な「デジタル公共財」として整備・提供するのだ。

 そのためのアプローチを示そう。第一に、法令などの高価値な行政データを、AIが意味を理解できる数値表現である「ベクトルデータ」に変換し、APIで広く提供する「国家ベクトルデータ・イニシアティブ」の創設だ。これにより、開発者はデータ前処理の重荷から解放され、AIが誤情報を生成するハルシネーションを抑制するRAG(検索拡張生成)システムの構築など、信頼性の高いアプリケーション開発に専念できる。

 第二に、その高品質なデータを基に、法律や統計といった分野に特化した高精度な「政府チューニング済み小規模言語モデル(SLM)」を開発し、公開することだ。最大の戦略的価値は、これらのSLMが一般的なPCやオンプレミスのサーバーで動作可能になる点にある。機密性の高い情報を外部クラウドに送ることなく、安全かつ低コストでAIを活用できる環境は、デジタル主権の確保につながり、多くの企業がAI導入に踏み切る決定的な後押しとなる。

 高品質なデータが、高品質なモデルを生み、その活用が新たな価値を創出する。この好循環をつくり出す「知的社会基盤」への戦略的投資こそ、日本のAI産業全体の競争力底上げにつながる。国全体の生産性を飛躍させるために、今最も求められる国家戦略である。
 
株式会社SENTAN 代表取締役 松田利夫
松田 利夫(まつだ としお)
 1947年10月、東京都八王子市生まれ。77年、慶應義塾大学工学研究科博士課程管理工学専攻単位取得後退学。東京理科大学理工学部情報科学科助手を経て、山梨学院大学経営情報学部助教授、教授を歴任。90年代に日本語ドメインサービス事業立上げ。以降ASP、SaaS、クラウドの啓蒙団体設立に参加。現在、「一般社団法人 みんなのクラウド」の理事を務める。
  • 1