Special Feature
現実化しつつある「ゼロETL」という未来 基幹系のデータを移動・加工なしで分析する
2024/05/02 09:00
週刊BCN 2024年04月29日vol.2012掲載
システム構築の世界では往々にして、かつてのベストプラクティスが現在の“アンチパターン”と化してしまうケースがある。データプラットフォームに関していえば、企業の情報システムで長年にわたり当たり前のように行われてきた「ETL」がそれにあたるかもしれない。従来のプロセスでは、テクノロジーのクラウド化やデータの大型化への対応が困難になりつつあるばかりか、運用エンジニアに与える負荷といった面でも大きな課題を抱えている。これに対して、ETLなしでさまざまなデータを統合し、基幹システムのデータを移動・加工する手間なく分析を可能にする「ゼロETL」のコンセプトが提案され、それを具現化するためのサービスが各社から登場している。現代の大規模なデータ活用に向けた、データ基盤のあるべき姿とはどのようなものか。
(取材・文/五味明子、編集/日高 彰)
AWS re:Invent 2022でゼロETLを提唱した米AWSのアダム・セリプスキーCEO
クラウドの普及にともなっていくつもの課題が浮き彫りになってきたETLに対し、米Amazon Web Services(アマゾン・ウェブ・サービス、AWS)のアダム・セリプスキーCEOは2022年11月、年次カンファレンス「AWS re:Invent 2022」の基調講演において「ゼロETLという未来(A Zero ETL future)」というコンセプトを打ち出し、データプラットフォーム業界に強いインパクトを与えた。また、ほぼ同時期に米Databricks(データブリックス)や米Snowflake(スノーフレイク)といったクラウドネイティブなデータプラットフォームベンダーが、基幹システムであるOLTPと分析システムであるOLAPの統合、あるいはデータレイクとDWHの統合といったアプローチを打ち出しており、筆者はこのころからゼロETLというキーワードを見かける機会が増えたように記憶している。
米AWSは、DWHのRedshiftにAWSの各種データベースやストレージのデータを
自動で複製するというサービスを提供し、
Redshiftとの統合をコアにゼロETLを展開する
現在では主立った大手クラウド事業者やデータプラットフォームベンダーの多くが、ゼロETLを銘打ったサービスを提供しており、米Salesforce(セールスフォース)のようにこれらのプラットフォーマーと連携して、双方のプラットフォーム間をゼロETLでデータ共有可能な環境を提供しているケースもある。
ここで注意しておきたいのが、どのベンダーも「ゼロETL」という強い言葉から想起されるような、“すべてのETLが完全になくなる世界”を実現しようとしているわけではない点だ。現時点でプラットフォーマーの多くが目指しているのは、基幹システムに置かれているトランザクションデータを分析に適したかたちに整えるための準備時間の短縮と、パイプライン構築/運用にかかる負荷の軽減である。
たとえばゼロETLの提唱者であるAWSの場合、リレーショナルデータベースの「Aurora」やNoSQLデータベースの「DyanamoDB」など、同社が提供するマネージドデータベースサービスに書き込まれたデータを、DWHサービスである「Redshift」に自動的にレプリケーションする「zero-ETL integrations」を、ゼロETLサービスのメインに位置づけている。zero-ETL integrationsを利用することで、ユーザーは自らデータを動かすことなく、またパイプラインを構築することなく、ペタバイト級のトランザクションデータであってもリアルタイムにデータベースからDWHへと格納することができる。
つまりETLのE(抽出)とL(格納)を同時に自動で実行し、DWHへの格納後にSQLでT(変換)を行うことで、パイプライン構築の負荷を大幅に削減しているのだ。加えて、BIサービスの「QuickSight」や機械学習サービスの「SageMaker」といったAWSの分析サービスをRedshiftと連携させることで、意思決定に必要なインサイトを迅速に提供することも可能になる。また、ストレージサービスの「S3」のデータをRedshiftに自動コピーする機能も提供されており、今後もRedshiftをコアにした各種データサービスのインテグレーションが続くと見られる。
スノーフレイク日本法人 井口和弘 執行役員
Unistoreの最大の特徴は、トランザクション処理を実行できる「Hybrid Table」と呼ばれるテーブルタイプが実装されている点だ。同社が提供するデータクラウドの「Snowflake」は、Redshiftと同様にクラウドネイティブなDWHとして登場したが、カラムストア形式というアーキテクチャー上、OLTPデータをテーブルで扱うことができなかった。このため、従来トランザクションデータの取り扱いに関しては課題があった。
Unistoreでは、プライマリーキーを必須としたHybrid Tableの実装により、高パフォーマンスでトランザクションデータにアクセスすることが可能になっている。また、Hybrid Tableと既存のSnowflakeテーブルをシームレスに連携して分析を行うことも可能だ。これは、既存のカラムストアとは別にロー(行)ストレージを用意することで実現しており、将来的には双方を同期させ、より高速なアクセスも可能になるという。コンピュートとストレージが独立して構成されているSnowflakeならではのメリットだといえる。
Unistoreのユースケースとしては「ETLワークフローなどアプリケーションステータスの確認」「航空会社のチケット情報確認などリードオンリーのWebポータル(データサービング)」「トランザクショナルデータを使った広告キャンペーン(トランザクショナルアプリケーション)」といったものが挙げられる。オンラインバンキングやチケットの発券といった代表的なトランザクショナルワークロードをカバーするのではなく、期間やユーザーアクセスが限られている条件下でトランザクションデータにクエリーをかけるといった短期的なアドホック分析を得意としており、すでに米Adobe(アドビ)やフィンランドのWolt(ウォルト)といった企業がアーリーアダプターとしてUnistoreを採用している。
一方で、ゼロETLを実現することの難しさもやはり存在する。井口執行役員は、Unistoreの一般提供開始が若干遅れている理由として「Unistoreのパフォーマンスを顧客が求める期待値まで高めることが難しい」と語る。例えば、ミリ秒単位のレイテンシーを要求されるフロントエンドアプリを顧客向けのサービスとして提供している企業に対し、彼らが満足するパフォーマンスをUnistoreで提供するのはかなりハードルが高い。「数ミリ秒以下のレイテンシーも技術的に実現できないことはないが、そうするとコストパフォーマンスが悪くなる可能性が高い。OLTPとOLAPという二兎を追うことは本当に難しいと実感するが、Snowflakeならではの伸縮性を生かしたコストとパフォーマンスのバランスが良いアーキテクチャーを目指して、より多くの顧客が満足できるようにしていきたい」(井口執行役員)
スノーフレイクの井口執行役員も「ETLが完全になくなるとはわれわれも思っていない。企業が利用するデータソースは多種多様で、ETLでなければ対応できない場合もある」と、現実的にはETLとゼロETLが混在する状況がしばらく続くとしている。その一方で、データプラットフォームがオンプレミスしか選択肢がなかったころとは明らかに時代が変わり、「データサイロを解消したいという顧客からのニーズは確実に高まっている」(同)からこそゼロETLというトレンドは生まれた。
トランザクションと分析に別々のシステムを用意し、高負荷のETLパイプラインを構築するというアーキテクチャーは、もはや大規模データプラットフォームのTo-Beではない。リアルタイムデータ分析やデータ処理の自動化、スケールするデータの一貫したサポート、こうしたニーズはすべて顧客が望んできたものであり、プラットフォーマーはそのニーズをとらえ、ゼロETLサービスとしての提供を開始している。
「より多くのデータを(プラットフォームに)入れやすくするためのあの手この手をベンダーが考えているのがいまの状態。もしかしたらインフラレイヤーで画期的な技術が突然誕生し、データサイロが一気に解消される方向に向かう可能性もある。そうした可能性も踏まえ、イノベーションの動向は注視しておく必要がある」と井口執行役員は指摘する。一つのプラットフォームでOLTP/OLAPの両方のデータを扱いたいという長年の顧客のニーズを現実的な解に落とし込む、データプラットフォームベンダーの試行錯誤はまだしばらく続く。
(取材・文/五味明子、編集/日高 彰)

基幹系のデータを分析する際の時間と負荷を解消
オンプレミス全盛期では当たり前だった従来のETL--トランザクションデータをOLTPデータベースから抽出“Extract”し、データウェアハウス(DWH)などの分析システム(OLAPデータベース)に合わせて変換“Transform”し、変換データをOLAPシステムに格納“Load”するという一連のプロセスは、クラウドネイティブ化が進む現在のデータ基盤にとってコストやオーバーヘッドの負荷が大きく、データのスケーラビリティーや処理の複雑化に対応することが難しくなっている。また、いったん構築したETLパイプラインの管理・運用がインフラエンジニアに苦痛を与える作業となっているケースも少なくない。
クラウドの普及にともなっていくつもの課題が浮き彫りになってきたETLに対し、米Amazon Web Services(アマゾン・ウェブ・サービス、AWS)のアダム・セリプスキーCEOは2022年11月、年次カンファレンス「AWS re:Invent 2022」の基調講演において「ゼロETLという未来(A Zero ETL future)」というコンセプトを打ち出し、データプラットフォーム業界に強いインパクトを与えた。また、ほぼ同時期に米Databricks(データブリックス)や米Snowflake(スノーフレイク)といったクラウドネイティブなデータプラットフォームベンダーが、基幹システムであるOLTPと分析システムであるOLAPの統合、あるいはデータレイクとDWHの統合といったアプローチを打ち出しており、筆者はこのころからゼロETLというキーワードを見かける機会が増えたように記憶している。
自動で複製するというサービスを提供し、
Redshiftとの統合をコアにゼロETLを展開する
現在では主立った大手クラウド事業者やデータプラットフォームベンダーの多くが、ゼロETLを銘打ったサービスを提供しており、米Salesforce(セールスフォース)のようにこれらのプラットフォーマーと連携して、双方のプラットフォーム間をゼロETLでデータ共有可能な環境を提供しているケースもある。
ここで注意しておきたいのが、どのベンダーも「ゼロETL」という強い言葉から想起されるような、“すべてのETLが完全になくなる世界”を実現しようとしているわけではない点だ。現時点でプラットフォーマーの多くが目指しているのは、基幹システムに置かれているトランザクションデータを分析に適したかたちに整えるための準備時間の短縮と、パイプライン構築/運用にかかる負荷の軽減である。
たとえばゼロETLの提唱者であるAWSの場合、リレーショナルデータベースの「Aurora」やNoSQLデータベースの「DyanamoDB」など、同社が提供するマネージドデータベースサービスに書き込まれたデータを、DWHサービスである「Redshift」に自動的にレプリケーションする「zero-ETL integrations」を、ゼロETLサービスのメインに位置づけている。zero-ETL integrationsを利用することで、ユーザーは自らデータを動かすことなく、またパイプラインを構築することなく、ペタバイト級のトランザクションデータであってもリアルタイムにデータベースからDWHへと格納することができる。
つまりETLのE(抽出)とL(格納)を同時に自動で実行し、DWHへの格納後にSQLでT(変換)を行うことで、パイプライン構築の負荷を大幅に削減しているのだ。加えて、BIサービスの「QuickSight」や機械学習サービスの「SageMaker」といったAWSの分析サービスをRedshiftと連携させることで、意思決定に必要なインサイトを迅速に提供することも可能になる。また、ストレージサービスの「S3」のデータをRedshiftに自動コピーする機能も提供されており、今後もRedshiftをコアにした各種データサービスのインテグレーションが続くと見られる。
トランザクションと分析の統合を目指すSnowflake
もう一つ、データプラットフォームベンダーによるゼロETLへのユニークな取り組みとして、スノーフレイクの「Unistore」を挙げておきたい。Unistoreは22年6月に発表された、同社のデータクラウドの機能の一つ。「トランザクショナルデータ(OLTP)と分析データ(OLAP)を一つのプラットフォーム上で扱う」ことをうたっている。現在はまだパブリックプレビューというステータスだが、スノーフレイク日本法人で執行役員を務める井口和弘・ セールスエンジニアリング統括本部長は「年内にはGA(一般提供開始)までこぎつけたい」とコメントしており、そう遠くないうちにUnistoreを利用できる環境が提供されることになりそうだ。
Unistoreの最大の特徴は、トランザクション処理を実行できる「Hybrid Table」と呼ばれるテーブルタイプが実装されている点だ。同社が提供するデータクラウドの「Snowflake」は、Redshiftと同様にクラウドネイティブなDWHとして登場したが、カラムストア形式というアーキテクチャー上、OLTPデータをテーブルで扱うことができなかった。このため、従来トランザクションデータの取り扱いに関しては課題があった。
Unistoreでは、プライマリーキーを必須としたHybrid Tableの実装により、高パフォーマンスでトランザクションデータにアクセスすることが可能になっている。また、Hybrid Tableと既存のSnowflakeテーブルをシームレスに連携して分析を行うことも可能だ。これは、既存のカラムストアとは別にロー(行)ストレージを用意することで実現しており、将来的には双方を同期させ、より高速なアクセスも可能になるという。コンピュートとストレージが独立して構成されているSnowflakeならではのメリットだといえる。
Unistoreのユースケースとしては「ETLワークフローなどアプリケーションステータスの確認」「航空会社のチケット情報確認などリードオンリーのWebポータル(データサービング)」「トランザクショナルデータを使った広告キャンペーン(トランザクショナルアプリケーション)」といったものが挙げられる。オンラインバンキングやチケットの発券といった代表的なトランザクショナルワークロードをカバーするのではなく、期間やユーザーアクセスが限られている条件下でトランザクションデータにクエリーをかけるといった短期的なアドホック分析を得意としており、すでに米Adobe(アドビ)やフィンランドのWolt(ウォルト)といった企業がアーリーアダプターとしてUnistoreを採用している。
一方で、ゼロETLを実現することの難しさもやはり存在する。井口執行役員は、Unistoreの一般提供開始が若干遅れている理由として「Unistoreのパフォーマンスを顧客が求める期待値まで高めることが難しい」と語る。例えば、ミリ秒単位のレイテンシーを要求されるフロントエンドアプリを顧客向けのサービスとして提供している企業に対し、彼らが満足するパフォーマンスをUnistoreで提供するのはかなりハードルが高い。「数ミリ秒以下のレイテンシーも技術的に実現できないことはないが、そうするとコストパフォーマンスが悪くなる可能性が高い。OLTPとOLAPという二兎を追うことは本当に難しいと実感するが、Snowflakeならではの伸縮性を生かしたコストとパフォーマンスのバランスが良いアーキテクチャーを目指して、より多くの顧客が満足できるようにしていきたい」(井口執行役員)
ETLはなくならないがデータサイロの解消は誰もが望む
本稿で紹介したように、ゼロETLというトレンドはまだ始まったばかりであり、エンタープライズ企業で普及するにはまだしばらく時間を要するだろう。オンプレミスではOLTP/OLAPを扱えるソリューションとして「Oracle Exadata」や「SAP HANA」などが提供されてきたが、クラウドネイティブでより多くのユーザが利用できるコスト効率の高い環境となると、選択肢はまだそれほど多くない。スノーフレイクの井口執行役員も「ETLが完全になくなるとはわれわれも思っていない。企業が利用するデータソースは多種多様で、ETLでなければ対応できない場合もある」と、現実的にはETLとゼロETLが混在する状況がしばらく続くとしている。その一方で、データプラットフォームがオンプレミスしか選択肢がなかったころとは明らかに時代が変わり、「データサイロを解消したいという顧客からのニーズは確実に高まっている」(同)からこそゼロETLというトレンドは生まれた。
トランザクションと分析に別々のシステムを用意し、高負荷のETLパイプラインを構築するというアーキテクチャーは、もはや大規模データプラットフォームのTo-Beではない。リアルタイムデータ分析やデータ処理の自動化、スケールするデータの一貫したサポート、こうしたニーズはすべて顧客が望んできたものであり、プラットフォーマーはそのニーズをとらえ、ゼロETLサービスとしての提供を開始している。
「より多くのデータを(プラットフォームに)入れやすくするためのあの手この手をベンダーが考えているのがいまの状態。もしかしたらインフラレイヤーで画期的な技術が突然誕生し、データサイロが一気に解消される方向に向かう可能性もある。そうした可能性も踏まえ、イノベーションの動向は注視しておく必要がある」と井口執行役員は指摘する。一つのプラットフォームでOLTP/OLAPの両方のデータを扱いたいという長年の顧客のニーズを現実的な解に落とし込む、データプラットフォームベンダーの試行錯誤はまだしばらく続く。
システム構築の世界では往々にして、かつてのベストプラクティスが現在の“アンチパターン”と化してしまうケースがある。データプラットフォームに関していえば、企業の情報システムで長年にわたり当たり前のように行われてきた「ETL」がそれにあたるかもしれない。従来のプロセスでは、テクノロジーのクラウド化やデータの大型化への対応が困難になりつつあるばかりか、運用エンジニアに与える負荷といった面でも大きな課題を抱えている。これに対して、ETLなしでさまざまなデータを統合し、基幹システムのデータを移動・加工する手間なく分析を可能にする「ゼロETL」のコンセプトが提案され、それを具現化するためのサービスが各社から登場している。現代の大規模なデータ活用に向けた、データ基盤のあるべき姿とはどのようなものか。
(取材・文/五味明子、編集/日高 彰)
AWS re:Invent 2022でゼロETLを提唱した米AWSのアダム・セリプスキーCEO
クラウドの普及にともなっていくつもの課題が浮き彫りになってきたETLに対し、米Amazon Web Services(アマゾン・ウェブ・サービス、AWS)のアダム・セリプスキーCEOは2022年11月、年次カンファレンス「AWS re:Invent 2022」の基調講演において「ゼロETLという未来(A Zero ETL future)」というコンセプトを打ち出し、データプラットフォーム業界に強いインパクトを与えた。また、ほぼ同時期に米Databricks(データブリックス)や米Snowflake(スノーフレイク)といったクラウドネイティブなデータプラットフォームベンダーが、基幹システムであるOLTPと分析システムであるOLAPの統合、あるいはデータレイクとDWHの統合といったアプローチを打ち出しており、筆者はこのころからゼロETLというキーワードを見かける機会が増えたように記憶している。
米AWSは、DWHのRedshiftにAWSの各種データベースやストレージのデータを
自動で複製するというサービスを提供し、
Redshiftとの統合をコアにゼロETLを展開する
現在では主立った大手クラウド事業者やデータプラットフォームベンダーの多くが、ゼロETLを銘打ったサービスを提供しており、米Salesforce(セールスフォース)のようにこれらのプラットフォーマーと連携して、双方のプラットフォーム間をゼロETLでデータ共有可能な環境を提供しているケースもある。
ここで注意しておきたいのが、どのベンダーも「ゼロETL」という強い言葉から想起されるような、“すべてのETLが完全になくなる世界”を実現しようとしているわけではない点だ。現時点でプラットフォーマーの多くが目指しているのは、基幹システムに置かれているトランザクションデータを分析に適したかたちに整えるための準備時間の短縮と、パイプライン構築/運用にかかる負荷の軽減である。
たとえばゼロETLの提唱者であるAWSの場合、リレーショナルデータベースの「Aurora」やNoSQLデータベースの「DyanamoDB」など、同社が提供するマネージドデータベースサービスに書き込まれたデータを、DWHサービスである「Redshift」に自動的にレプリケーションする「zero-ETL integrations」を、ゼロETLサービスのメインに位置づけている。zero-ETL integrationsを利用することで、ユーザーは自らデータを動かすことなく、またパイプラインを構築することなく、ペタバイト級のトランザクションデータであってもリアルタイムにデータベースからDWHへと格納することができる。
つまりETLのE(抽出)とL(格納)を同時に自動で実行し、DWHへの格納後にSQLでT(変換)を行うことで、パイプライン構築の負荷を大幅に削減しているのだ。加えて、BIサービスの「QuickSight」や機械学習サービスの「SageMaker」といったAWSの分析サービスをRedshiftと連携させることで、意思決定に必要なインサイトを迅速に提供することも可能になる。また、ストレージサービスの「S3」のデータをRedshiftに自動コピーする機能も提供されており、今後もRedshiftをコアにした各種データサービスのインテグレーションが続くと見られる。
(取材・文/五味明子、編集/日高 彰)

基幹系のデータを分析する際の時間と負荷を解消
オンプレミス全盛期では当たり前だった従来のETL--トランザクションデータをOLTPデータベースから抽出“Extract”し、データウェアハウス(DWH)などの分析システム(OLAPデータベース)に合わせて変換“Transform”し、変換データをOLAPシステムに格納“Load”するという一連のプロセスは、クラウドネイティブ化が進む現在のデータ基盤にとってコストやオーバーヘッドの負荷が大きく、データのスケーラビリティーや処理の複雑化に対応することが難しくなっている。また、いったん構築したETLパイプラインの管理・運用がインフラエンジニアに苦痛を与える作業となっているケースも少なくない。
クラウドの普及にともなっていくつもの課題が浮き彫りになってきたETLに対し、米Amazon Web Services(アマゾン・ウェブ・サービス、AWS)のアダム・セリプスキーCEOは2022年11月、年次カンファレンス「AWS re:Invent 2022」の基調講演において「ゼロETLという未来(A Zero ETL future)」というコンセプトを打ち出し、データプラットフォーム業界に強いインパクトを与えた。また、ほぼ同時期に米Databricks(データブリックス)や米Snowflake(スノーフレイク)といったクラウドネイティブなデータプラットフォームベンダーが、基幹システムであるOLTPと分析システムであるOLAPの統合、あるいはデータレイクとDWHの統合といったアプローチを打ち出しており、筆者はこのころからゼロETLというキーワードを見かける機会が増えたように記憶している。
自動で複製するというサービスを提供し、
Redshiftとの統合をコアにゼロETLを展開する
現在では主立った大手クラウド事業者やデータプラットフォームベンダーの多くが、ゼロETLを銘打ったサービスを提供しており、米Salesforce(セールスフォース)のようにこれらのプラットフォーマーと連携して、双方のプラットフォーム間をゼロETLでデータ共有可能な環境を提供しているケースもある。
ここで注意しておきたいのが、どのベンダーも「ゼロETL」という強い言葉から想起されるような、“すべてのETLが完全になくなる世界”を実現しようとしているわけではない点だ。現時点でプラットフォーマーの多くが目指しているのは、基幹システムに置かれているトランザクションデータを分析に適したかたちに整えるための準備時間の短縮と、パイプライン構築/運用にかかる負荷の軽減である。
たとえばゼロETLの提唱者であるAWSの場合、リレーショナルデータベースの「Aurora」やNoSQLデータベースの「DyanamoDB」など、同社が提供するマネージドデータベースサービスに書き込まれたデータを、DWHサービスである「Redshift」に自動的にレプリケーションする「zero-ETL integrations」を、ゼロETLサービスのメインに位置づけている。zero-ETL integrationsを利用することで、ユーザーは自らデータを動かすことなく、またパイプラインを構築することなく、ペタバイト級のトランザクションデータであってもリアルタイムにデータベースからDWHへと格納することができる。
つまりETLのE(抽出)とL(格納)を同時に自動で実行し、DWHへの格納後にSQLでT(変換)を行うことで、パイプライン構築の負荷を大幅に削減しているのだ。加えて、BIサービスの「QuickSight」や機械学習サービスの「SageMaker」といったAWSの分析サービスをRedshiftと連携させることで、意思決定に必要なインサイトを迅速に提供することも可能になる。また、ストレージサービスの「S3」のデータをRedshiftに自動コピーする機能も提供されており、今後もRedshiftをコアにした各種データサービスのインテグレーションが続くと見られる。
この記事の続き >>
- トランザクションと分析の統合を目指すSnowflake
- ETLはなくならないがデータサイロの解消は誰もが望む
続きは「週刊BCN+会員」のみ
ご覧になれます。
(登録無料:所要時間1分程度)
新規会員登録はこちら(登録無料) ログイン会員特典
- 注目のキーパーソンへのインタビューや市場を深掘りした解説・特集など毎週更新される会員限定記事が読み放題!
- メールマガジンを毎日配信(土日祝をのぞく)
- イベント・セミナー情報の告知が可能(登録および更新)
SIerをはじめ、ITベンダーが読者の多くを占める「週刊BCN+」が集客をサポートします。 - 企業向けIT製品の導入事例情報の詳細PDFデータを何件でもダウンロードし放題!…etc…
- 1
