Data Platformといっても、人によってOLTP用なのかOLAP用なのかイメージするものが異なってくると思います。 私のバックグラウンドはAnalyticsのエリアではなく、ビジネスアプリケーション開発のエリアとなりOLTPの用途をすぐに想像してしまいます。
Data FabricやData meshといった概念は基本的にOLAP用を想定した概念であると最近理解しました。
AWSのサイトにデータメッシュとは何ですか? - データメッシュアーキテクチャの説明 - AWSという記事があり、DataLake、Data Fabric、Data meshの違いが書かれています。
また、IT Leadersの「データファブリック」「データメッシュ」とは何か? データ統合の最前線を専門家に聞く | IT Leadersも参考になります。
少し先のスケジュールにはなりますがAnalytics用のプラットフォームを作る計画もあるのでどのようなアーキテクチャーが良いのか少し考えています。
自分の過去の経験や先人たちの経験を参考にするとDatalakeの概念自体は間違いではなさそうですが、以下のような課題が発生するようです。
データの沼になる (Data Swamp) - どこに何があるかわからない、無駄なデータが存在する
管理するチームがボトルネックになる - 集中管理しているため、人的リソースが共有リソースとなりコンフリクトが発生する
トランザクションのサポートが弱い - 一貫性、独立性のが保障されない場合が多い
データコピーに伴う処理遅延、複雑性があがる - 複数のソリューションを組み合わせるため、データコピーが必要だったり、インテグレーションが増える
これらの一部を解決するためにData Lakehouseというソリューションも出てきています。
Data Warehouse -> Data Lake -> Data Lakehouseといった歴史をたどっていることは理解できたのですが、何が問題で何が解決されるのかもう少し深堀して理解したいところです。
また、このようなソリューションに加え冒頭のData FabricやData meshの概念ももう少し理解・整理が必要です。