Special Feature

現実化しつつある「ゼロETL」という未来 基幹系のデータを移動・加工なしで分析する

2024/05/02 09:00

週刊BCN 2024年04月29日vol.2012掲載

 システム構築の世界では往々にして、かつてのベストプラクティスが現在の“アンチパターン”と化してしまうケースがある。データプラットフォームに関していえば、企業の情報システムで長年にわたり当たり前のように行われてきた「ETL」がそれにあたるかもしれない。従来のプロセスでは、テクノロジーのクラウド化やデータの大型化への対応が困難になりつつあるばかりか、運用エンジニアに与える負荷といった面でも大きな課題を抱えている。これに対して、ETLなしでさまざまなデータを統合し、基幹システムのデータを移動・加工する手間なく分析を可能にする「ゼロETL」のコンセプトが提案され、それを具現化するためのサービスが各社から登場している。現代の大規模なデータ活用に向けた、データ基盤のあるべき姿とはどのようなものか。
(取材・文/五味明子、編集/日高 彰)
 

基幹系のデータを分析する際の時間と負荷を解消

 オンプレミス全盛期では当たり前だった従来のETL--トランザクションデータをOLTPデータベースから抽出“Extract”し、データウェアハウス(DWH)などの分析システム(OLAPデータベース)に合わせて変換“Transform”し、変換データをOLAPシステムに格納“Load”するという一連のプロセスは、クラウドネイティブ化が進む現在のデータ基盤にとってコストやオーバーヘッドの負荷が大きく、データのスケーラビリティーや処理の複雑化に対応することが難しくなっている。また、いったん構築したETLパイプラインの管理・運用がインフラエンジニアに苦痛を与える作業となっているケースも少なくない。
 
AWS re:Invent 2022でゼロETLを提唱した米AWSのアダム・セリプスキーCEO

 クラウドの普及にともなっていくつもの課題が浮き彫りになってきたETLに対し、米Amazon Web Services(アマゾン・ウェブ・サービス、AWS)のアダム・セリプスキーCEOは2022年11月、年次カンファレンス「AWS re:Invent 2022」の基調講演において「ゼロETLという未来(A Zero ETL future)」というコンセプトを打ち出し、データプラットフォーム業界に強いインパクトを与えた。また、ほぼ同時期に米Databricks(データブリックス)や米Snowflake(スノーフレイク)といったクラウドネイティブなデータプラットフォームベンダーが、基幹システムであるOLTPと分析システムであるOLAPの統合、あるいはデータレイクとDWHの統合といったアプローチを打ち出しており、筆者はこのころからゼロETLというキーワードを見かける機会が増えたように記憶している。
 
米AWSは、DWHのRedshiftにAWSの各種データベースやストレージのデータを
自動で複製するというサービスを提供し、
Redshiftとの統合をコアにゼロETLを展開する

 現在では主立った大手クラウド事業者やデータプラットフォームベンダーの多くが、ゼロETLを銘打ったサービスを提供しており、米Salesforce(セールスフォース)のようにこれらのプラットフォーマーと連携して、双方のプラットフォーム間をゼロETLでデータ共有可能な環境を提供しているケースもある。

 ここで注意しておきたいのが、どのベンダーも「ゼロETL」という強い言葉から想起されるような、“すべてのETLが完全になくなる世界”を実現しようとしているわけではない点だ。現時点でプラットフォーマーの多くが目指しているのは、基幹システムに置かれているトランザクションデータを分析に適したかたちに整えるための準備時間の短縮と、パイプライン構築/運用にかかる負荷の軽減である。

 たとえばゼロETLの提唱者であるAWSの場合、リレーショナルデータベースの「Aurora」やNoSQLデータベースの「DyanamoDB」など、同社が提供するマネージドデータベースサービスに書き込まれたデータを、DWHサービスである「Redshift」に自動的にレプリケーションする「zero-ETL integrations」を、ゼロETLサービスのメインに位置づけている。zero-ETL integrationsを利用することで、ユーザーは自らデータを動かすことなく、またパイプラインを構築することなく、ペタバイト級のトランザクションデータであってもリアルタイムにデータベースからDWHへと格納することができる。

 つまりETLのE(抽出)とL(格納)を同時に自動で実行し、DWHへの格納後にSQLでT(変換)を行うことで、パイプライン構築の負荷を大幅に削減しているのだ。加えて、BIサービスの「QuickSight」や機械学習サービスの「SageMaker」といったAWSの分析サービスをRedshiftと連携させることで、意思決定に必要なインサイトを迅速に提供することも可能になる。また、ストレージサービスの「S3」のデータをRedshiftに自動コピーする機能も提供されており、今後もRedshiftをコアにした各種データサービスのインテグレーションが続くと見られる。
この記事の続き >>
  • トランザクションと分析の統合を目指すSnowflake
  • ETLはなくならないがデータサイロの解消は誰もが望む

続きは「週刊BCN+会員」のみ
ご覧になれます。

(登録無料:所要時間1分程度)

新規会員登録はこちら(登録無料)

会員特典

詳しく見る
  1. 注目のキーパーソンへのインタビューや市場を深掘りした解説・特集など毎週更新される会員限定記事が読み放題!
  2. メールマガジンを毎日配信(土日祝をのぞく)
  3. イベント・セミナー情報の告知が可能(登録および更新)
    SIerをはじめ、ITベンダーが読者の多くを占める「週刊BCN+」が集客をサポートします。
  4. 企業向けIT製品の導入事例情報の詳細PDFデータを何件でもダウンロードし放題!
  • 1

関連記事

米Snowflake日本法人、「Snowflake」上で業務アプリ開発が容易に セキュリティを確保し迅速な構築を実現