Hadoop とはは
Hadoopは、Apache Software Foundationによる分散コンピューティングプラットフォームです。HDFS(Hadoop Distributed File System)による分散ファイルシステムとMapReduceによる分散処理により、大規模データセットの処理を実現します。コモディティハードウェアでスケールアウトが可能で、ビッグデータ処理の基盤として広く利用されています。
Hadoopのコアコンポーネント
- HDFS:分散ファイルシステム(データを複数ノードに分散・冗長化)
- MapReduce:分散バッチ処理フレームワーク
- YARN:リソース管理(CPU・メモリの割り当て)
- Hadoop Common:共通ライブラリ・ユーティリティ
2025年のHadoopの位置づけ
2025年、HadoopはApache Sparkに多くのユースケースを譲り、新規構築での採用は減少しています。ただし、HDFSはまだ多くのレガシー環境で使われており、Amazon EMRやAzure HDInsightなどのマネージドHadoopサービスは引き続き利用されています。新規構築ではSparkとS3/ADLS等のオブジェクトストレージの組み合わせが主流です。
