DataLake / LakeHouseの動向 その1

データプラットフォームの候補として色々調べているところですが、恥ずかしながらHadoop/Hive全盛時代の浅い知識しかなく勉強しなおしています。

NTTデータさんが公開されている2019年の資料「大規模データ活用向けストレージレイヤソフトのこれまでとこれから」を見るとApache KUDU, Apache hudi, Delta Lakeが登場してきたのがこの頃のようです。 OLTP/OLAPどちらの用途にも使えるプラットフォームの構築をしたいのですが、このような情報を見るとおそらく一昔前までは難しかったことが、最近のテクノロジーを使えば行けるような気がします。


続いて2020年の資料を見るとApache Iceberg, Apache Hudi, Delta Lakeの3つが掲載されています。Apache KUDUはどこに行ったのでしょう…?ひとまず深追いせずに進めます。


ここで気になるのはやはりDelta LakeとApache Hudiですが一旦Google Trendでも調べてみました。やはり一番検索されているのはDelta Lakeで関連キーワードも一番多く出てきます。

Delta LakeとApache Hudiについては、上記2020年のカンファレンスで使われた別の資料があります。

この頃のApache Hudiはまだ開発中の様子ですが、2023/11/26現在もまだVersion 1.0はunder active developmentとの記載があります。 今年中にはVersion 1.0が出そうな気がしますので要確認です。


続いてDelta Lakeの資料です。

Delta Lakeもこの時はまだVersion 1.0になっていなかったのかVersion 0.7.0でベンチマークが取得されています。 2023/11/26現在は、Delta Lake 3.0.0 | Delta Lakeとなっており、大きくVersionが更新されています。 DataBricksの活用が増えているのもDelta Lakeの進化が要因の1つとなっているかもしれません。


Apache Hudiもここから進化していると思いますので別途調査が必要です。

Youtubeにカンファレンスの動画がありましたのでリンクを貼っておきます。


www.youtube.com


www.youtube.com


www.youtube.com

初心者には非常に参考なる資料と動画で、随分頭の中の整理ができました。ありがとうございます。