<\!DOCTYPE html> Apache Spark | 用語集 | IT/AIエンジニア 野口真一

Apache Spark

データ分析 | IT用語集

Apache Sparkとは

Apache Sparkは、高速分散処理エンジンです。メモリ内処理(In-Memory Processing)により、Hadoop MapReduceより最大100倍高速なデータ処理を実現します。2009年にUCバークレーで開発され、2013年にApache Software Foundationに寄贈されました。

Sparkのコンポーネント

  • Spark Core:基盤となるRDD(Resilient Distributed Dataset)エンジン
  • Spark SQL:SQLおよびDataFrame/Dataset APIでの構造化データ処理
  • Spark Streaming / Structured Streaming:リアルタイムストリーミング処理
  • MLlib:機械学習ライブラリ(分類・回帰・クラスタリング等)
  • GraphX:グラフ処理エンジン

HadoopとSparkの違い

項目 Hadoop MapReduce Apache Spark
処理方式ディスク書き込み中心メモリ中心(最大100倍高速)
遅延処理バッチのみバッチ + ストリーミング
機械学習Mahout(限定的)MLlib(豊富)
言語JavaScala/Java/Python/R

2025年の最新動向

  • Spark 3.5+:Delta Lake 3.0との統合強化、Pythonユーザー向けSparkConnect普及
  • Lakehouse アーキテクチャ:Databricks Delta Lake・Apache Icebergとの統合が標準化
  • AI/ML統合:MLflow、Hugging Face TransformersとSparkの連携が進む
  • クラウドマネージド:Amazon EMR Serverless、Google Cloud Dataproc Serverlessが普及

外部リファレンス:
Apache Spark公式サイト

この用語についてもっと詳しく

Apache Spark に関するご質問や、システム導入のご相談など、お気軽にお問い合わせください。