<\!DOCTYPE html> データレイク(Data Lake) | 用語集 | IT/AIエンジニア 野口真一

データレイク(Data Lake)

データ分析 | IT用語集

データレイク(Data Lake)とは

データレイク(Data Lake)は、大量の生データをあらゆる形式で格納する大規模ストレージシステムです。構造化・半構造化・非構造化データを格納し、後から必要に応じて処理・分析できます。AWS S3、Azure Data Lake Storage、Google Cloud Storageが代表例です。

データレイクとデータウェアハウスの違い

比較項目 データレイク データウェアハウス
データ形式あらゆる形式(生データ)構造化データ(テーブル)
スキーマSchema-on-Read(読み時)Schema-on-Write(書き時)
用途探索的分析・AI/ML学習データBI・定型レポート
代表例AWS S3、ADLS、GCSBigQuery、Snowflake、Redshift

主要なデータレイクプラットフォーム

  • Amazon S3:最も広く使われるオブジェクトストレージ。Athena・EMRと連携
  • Azure Data Lake Storage Gen2:AzureのHadoop互換ストレージ
  • Google Cloud Storage:BigQuery・Dataflowと統合
  • Delta Lake:Databricksのオープンソース・ACIDトランザクション対応
  • Apache Iceberg:NetflixのオープンテーブルフォーマットでSpark・Flink対応

2025〜2026年の最新動向

  • Lakehouseアーキテクチャ:データレイク+DWHの特性を統合(Delta Lake、Apache Iceberg)
  • Open Table Format:Apache Icebergが業界標準として台頭、Snowflake・BigQueryが対応
  • データメッシュ:ドメインオーナーシップによる分散型データ管理の普及
  • AI機能統合:Databricks Genie・Microsoft Fabricで自然言語でデータレイクを操作

よくある質問(FAQ)

Q. データレイクとは何ですか?

生データをあらゆる形式で大量に格納する大規模ストレージシステムです。AWS S3、Azure Data Lake Storage、Google Cloud Storageが代表例です。AI/ML学習データや探索的分析に適しています。

Q. Lakehouseとは何ですか?

Lakehouseはデータレイクの低コスト・柔軟性とデータウェアハウスのSQL・ACID機能を統合したアーキテクチャです。Delta Lake(Databricks)やApache Icebergが代表的で、2025年はこれが業界標準になりつつあります。

この用語についてもっと詳しく

データレイクに関するご質問や、システム導入のご相談など、お気軽にお問い合わせください。