Master Data Management patterns以外にもData Platformそのものを統合型にするのか分散型にするのかを考える必要がありました。
Data Platformといっても人によって定義は異なるかもしれませんが、ひとまず1つの企業でデータを統合管理する想定でその受け皿となる基盤というイメージで考えています。
「クラウドでデータ活用!データ基盤の設計パターン」では以下の3つに定義されています。
データレイク型 | 統合型 | 分散型 | |
---|---|---|---|
柔軟性・拡張性 | ◎ | △ | 〇 |
コスト | 〇 | △ | ◎ |
難易度 | △(難しい) | ◎(簡単) | △(難しい) |
サイロ化への対応 | ◎(簡単) | ◎(簡単) | △(難しい |
ビッグデータ対応 | ◎ | △ | 〇 |
統合型は1つのアナリティクス製品で基盤を統一するということで、分散型は複数のアナリティクス製品が混在するというイメージのようです。 統合型・分散型はレガシー的な構成と書いてありますが、選択肢にならないわけではないとのことなので単純にデータレイク的な考え方ではないという意味だと思います。
上記の場合は少し製品依存の考え方?な気がするので、もう少し概念的なところから検討するために「大規模データ管理 ―エンタープライズアーキテクチャのベストプラクティス」などを参考にしながら、将来的にはアナリティクス用途以外にも使える基盤の設計をしていく必要があると考えています。
また、Data FabricやData meshといった表現で統合型・分散型について検討されているケースもあり、Data Platformについてはベストプラクティスは無さそうです。
自分たちで試行錯誤しながら世間の動向をみて調整していく必要がありますね。
参考図書:
参考リンク:
Data Fabrics for Big Data | Transforming Data with Intelligence
How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh