データレイク(Data Lake)とは
データレイク(Data Lake)は、大量の生データをあらゆる形式で格納する大規模ストレージシステムです。構造化・半構造化・非構造化データを格納し、後から必要に応じて処理・分析できます。AWS S3、Azure Data Lake Storage、Google Cloud Storageが代表例です。
データレイクとデータウェアハウスの違い
| 比較項目 | データレイク | データウェアハウス |
|---|---|---|
| データ形式 | あらゆる形式(生データ) | 構造化データ(テーブル) |
| スキーマ | Schema-on-Read(読み時) | Schema-on-Write(書き時) |
| 用途 | 探索的分析・AI/ML学習データ | BI・定型レポート |
| 代表例 | AWS S3、ADLS、GCS | BigQuery、Snowflake、Redshift |
主要なデータレイクプラットフォーム
- Amazon S3:最も広く使われるオブジェクトストレージ。Athena・EMRと連携
- Azure Data Lake Storage Gen2:AzureのHadoop互換ストレージ
- Google Cloud Storage:BigQuery・Dataflowと統合
- Delta Lake:Databricksのオープンソース・ACIDトランザクション対応
- Apache Iceberg:NetflixのオープンテーブルフォーマットでSpark・Flink対応
2025〜2026年の最新動向
- Lakehouseアーキテクチャ:データレイク+DWHの特性を統合(Delta Lake、Apache Iceberg)
- Open Table Format:Apache Icebergが業界標準として台頭、Snowflake・BigQueryが対応
- データメッシュ:ドメインオーナーシップによる分散型データ管理の普及
- AI機能統合:Databricks Genie・Microsoft Fabricで自然言語でデータレイクを操作
よくある質問(FAQ)
Q. データレイクとは何ですか?
生データをあらゆる形式で大量に格納する大規模ストレージシステムです。AWS S3、Azure Data Lake Storage、Google Cloud Storageが代表例です。AI/ML学習データや探索的分析に適しています。
Q. Lakehouseとは何ですか?
Lakehouseはデータレイクの低コスト・柔軟性とデータウェアハウスのSQL・ACID機能を統合したアーキテクチャです。Delta Lake(Databricks)やApache Icebergが代表的で、2025年はこれが業界標準になりつつあります。
