〈一般的な解釈は…〉大量のデータを分散して処理することができるオープンソースのソフトウェア。

 「Hadoop」という英語の造語は、大量のデータを複数のマシンに分散して、処理することができるソフトウェア(ミドルウェア)を指している。Hadoopは、米国の非営利団体「Apacheソフトウェア財団(ASF)」が開発したもので、誰でも無償で手に入れることができるオープンソースソフトウェア(OSS)として提供・配布されている。「Apache Hadoop(アパッチ・ハドゥープ)」ともいう。

 Hadoopは、複数のマシンへの分散という手法をとることによって、情報処理の時間短縮を図り、大規模のデータを効率的に処理・管理することができる。IBMやヒューレット・パッカード、EMCなど、多くの大手IT企業は、オープンソースであるHadoopを採用し、自社が展開するデータ分析ソリューションの分散処理基盤(プラットフォーム)として活用している。

 このところ、ストレージシステムを中心として、Hadoopを利用したIT製品の普及が進んでいる。その背景には、「ビッグデータ」時代の到来がある。ビッグデータとは、ソーシャルネットワーク(SNS)情報や動画など、データベースに格納できない情報(非構造化データ)の増大にけん引され、データ量が爆発的に増えていることを意味する。従来型のリレーショナルデータベース(RDB)を利用する方式では、ビッグデータの処理が難しいので、ビッグデータに適している分散処理プラットフォームとしてHadoopが注目を浴びている。

 Hadoopは、ソフトウェアを作成するためのプログラミング言語「Java(ジャバ)」で実装される。分散処理システム「Hadoop MapReduce」、分散ファイルシステム「Hadoop Distributed File System(HDFS)」、データベース基盤「hBase」の三つのシステムで構成されている。