データ活用に関わる方であれば日々、そうでない方も一度は耳にしたことがある概念かと思いますが、企業のデータの収集から活用までのパイプライン上で語られるデータ基盤である、「データレイク」「データウェアハウス」「データマート」について簡単に整理してみたいと思います。今日CDPと言われるツールの活用においては、顧客情報の統合とその施策への活用がフォーカスされますが、それは強固で効率的なデータパイプラインに支えられるべきだと考えます。
Treasure Data CDPはビッグデータ時代のデータパイプラインの中で、「データレイク」「データウェアハウス」「データマート」3つの役割を果たすツールです。そのため、この3つの概念を今一度振り返っておくことは、Treasure Data CDPをお使いいただく際に非常に重要だと考えており、この概念を理解いただくことでTreasure Data CDPをより効果的にお使いいただけると考えております。
データレイク
「データの湖」というその名の通り、様々なデータソース(水源)から発生した多種多様なデータを、貯めておく場所として機能します。その際に、Gartner社もデータレイクの定義として下記のように挙げていますが、データレイクに投入するデータは、極力集計や加工をせずに、ローデータの状態のままにしておくことが重要です。
A data lake is a concept consisting of a collection of storage instances of various data assets. These assets are stored in a near-exact, or even exact, copy of the source format and are in addition to the originating data stores.
引用:Definition of Data Lake – Gartner Information Technology Glossary
なぜなら、企業のデータ活用・データ分析においては、常にローデータに立ち戻る必要が出てくるからです。企業でデータ活用を進めていく中で、事前にどのようなデータがどのような粒度で必要になるか事前に定義することは不可能ですし、そもそもどのようにデータを活用出来るか、初めてトライするという企業も多いはずです。
データを任意の粒度で集計してしまった場合、集計データをより細かい粒度には戻せませんし、削ってしまったデータはまたデータソースのシステムから取得する必要があります。ローデータをデータソースを司っているシステムはミッションクリティカルな役割を負っていることも多いため、データソースのシステムから分離することでデータソースのシステムに負担をかけず、いつでもローデータを利用できる状態にしておくこともデータレイクの重要な目的です。
ウェブログやアプリログなどの行動データや、購買履歴などのトランザクションデータをまずはそのまま蓄積し、後続のデータウェアハウスやデータマートでの用途に合わせて集計・加工を行なっていきます。
データウェアハウス
データレイクとは異なり、事前に定義されたデータ利用の目的に合わせて整形や集計・構造化がされたデータを格納します。その名の通り、データのウェアハウス=倉庫として、データを利用できる形にして保存しておく場所です。一般に社内の分析担当者がアクセスするのはデータウェアハウスであると言って良いでしょう。各分析官がデータウェアハウスのデータを元に、個別の分析を行なっていきます。
再びGartner社の定義ですが、データレイクとの違いは、事前に定義された目的に沿って、集計・統合・構造化されたデータを格納しておくという点です。
A data warehouse is a storage architecture designed to hold data extracted from transaction systems, operational data stores and external sources. The warehouse then combines that data in an aggregate, summary form suitable for enterprisewide data analysis and reporting for predefined business needs.
引用:Definition of Data Warehouse – Gartner Information Technology Glossary
事前に定義された目的に沿って整備されたデータは、実際には企業がビジネス活動を行う中で修正・改訂が加えられていくものですし、日々新たな目的のためのデータが必要となってきます。データレイクに蓄積されたローデータから、新たな要件に必要なデータを作成してデータウェアハウスに格納していくというループが回ることになります。
データマート
こちらもその名の通り、マート=小売店ですから、ウェアハウス(倉庫)にあったデータを取り出して、それぞれのお客さんのニーズに合わせて加工したもの、といったイメージでしょうか。
データマートはデータウェアハウスの下位概念にもあたりますが、より特定の用途の為にデータを切り出したものです。BI用のデータ群や、分析のためのデータセットなどがこれに当たります。データウェアハウスとデータマート線引きは明確ではないケースも多いですが、データマートが各分析官によって個別の要件のために作成されたデータセットであるのに対し、データウェアハウスで管理するデータは、どの個別要件でも必ず行うクレンジングやラベリングなどの構造化を行なったものといえるでしょう。
以上が、トレジャーデータがカバーする「データレイク」「データウェアハウス」「データマート」の大まかな概念になります。詳細な議論は他に譲りますが、上記概念を念頭に置いていただくことで、貴社データ基盤におけるトレジャーデータの位置付けを整理いただき、より有効にご利用いただく一助になれば幸いです。