野村総合研究所(NRI)は7月7日、デジタルトランスフォーメーション(DX)の分野で注目を集めているリアルタイムに大量のデータを扱えるストリーミングプラットフォーム「Apache Kafka」と、大規模データを効率的に分散処理するためのフレームワーク「Apache Hadoop+Apache Spark」のサポートサービスを、7月からOpenStandia(オープンスタンディア)で提供すると発表した。

「Apache Kafka」のWebサイト

 Apache Kafkaは、システムが受信するデータを一時的に保持する分散メッセージキュー。Apache Kafkaを導入することで、データ送受信を行うシステム間の関係を疎結合にしたり、ストリーミングデータを扱うアプリケーションで、急激に入力データが増加する際の負荷を抑制したりすることができる。また、複数台のサーバーで並列分散処理を行うため、コンピューターの台数を増やすことでシステム全体の性能を向上させる手法であるスケールアウトによる高い拡張性と耐障害性を備えている。

 Apache Hadoopは、データウェアハウスなど専用の製品を必要とせず、一般的なサーバーを利用してビッグデータの処理を実現する。複数台のサーバーで並列分散処理を行うことで、データ量の増加に応じてスケールアウトで柔軟な対応が可能になり、耐障害性の面でも優れている。

 しかし、Apache Hadoopのみでデータを処理する場合、ファイルシステムに対して読み込みと書き込みを繰り返すため、リアルタイムな処理には向いていないという弱点があった。そこで、高速にデータを読みこむことができるメモリ上にデータを保持できるApache SparkをApache Hadoopと組み合わせることにより、非常に高速なデータ処理が可能となる。また、Apache Sparkは機械学習のためのMLlib、ストリーミング処理のためのSpark Streamingなどのコンポーネントライブラリーを提供するため、高速・大容量・柔軟なデータ処理で様々なビジネスを支援する。

 今回、NRIでは、OpenStandiaで、Apache KafkaとApache Hadoop+Apache Sparkの年間サポートサービスと技術支援サービスを用意した。これにより、Apache KafkaとApache Hadoop+Apache Sparkの問い合わせ対応や障害調査、セキュリティ情報などの提供を行う。