現在、Treasure Data CDPを導入された企業様へのコンサルティング業務、導入フェーズから利活用のフェーズまで幅広く案件を担当させていただいております。トレジャーデータ入社前は、デジタル広告領域におけるメディアプランニング業務を行っており、CDPとは離れた領域だったため、入社後は専門用語の理解に苦戦しました。そこで、今回は他領域からCDP領域に転向してきた私が、プロジェクトを経験していく中で耳にする機会が多かったワードを一部抜粋して、ご紹介させていただければと思います。
個人的頻出ワード10選
今回、以下10ワードについて、ご説明差し上げます。一部トレジャーデータ内で独自に使用されるワードもございますが、CDP導入にあたり非常に重要なワードになりますので、是非最後までお読みいただけますと幸いです。
- アーキテクチャ(システム構成図)
- 中間サーバー
- バッチ処理
- IDマッピング
- インターフェイス仕様書
- テーブル定義書
- PK(プライマリーキー)
- マスタデータ
- トランザクションデータ
- データマート
アーキテクチャ(システム構成図)
アーキテクチャとは、基本設計や設計思想などを意味する広義な言葉ですが、CDPの導入においては、CDPを中心に、データの取得元(Input)と、連携先(Output)までの流れを図式化したシステムアーキテクチャと、CDP内に取り込んだデータそのものの構造(データアーキテクチャ)の2つがあります。後者はDB/テーブルのリレーションだけでなく、データの利用目的に応じた階層構造(L0:データソースから取り込んだ状態のいわゆるrawデータ、L1:L0を正規化したデータ、L2:用途に応じて集計したマートデータ)も重要です。
中間サーバー
中間サーバーとは、連携元DB/システムと連携先DB/システムの間にある連携データの受け渡し用のファイルサーバー、またはそれに準ずる機能を保有するシステムのことです。一般的にはAWSのS3やGCPのCloud Storage(GCS)などのファイルサーバにCSV/TSVファイルとして書き出して頂くことで、企業様のデータベース本体に直接アクセスすることなくCDP内にデータを取り込むことが可能となります。
バッチ処理
バッチ処理はデータの取り込みや整形などWorkflow/SQLで実行する一連の処理のことで、夜間や早朝などコンピューターの負荷が少ない時間を使って行うことが一般的となっております。一方、対義語として使用されることが多いのが、銀行ATMやカード決済など都度データを反映させるリアルタイム処理や、webアクセスログやアプリログなどをCDPに取り込むストリーミング処理です。
IDマッピング
IDマッピングとは、異なるシステム間で情報を一意に紐付けるため、ID同士を突合することです。CDP構築においては、WEBログのCookieと基幹データの会員マスタ(会員ID)を紐付けるため、IDマッピングを行います。
インターフェイス仕様書
インターフェイス仕様書とは、システム間のデータの連携仕様を定義したドキュメントを指し、具体的には、
- 処理概要:どのデータを、どのような連携方式で、どのシステムと連携し、どのような加工を行うのかといった概要
- レイアウト定義:出力ファイルやテーブル単位にカラム名/桁/型といった各項目の定義と順序
- 編集仕様:処理後の連携先へ渡すレイアウトの変換内容
が記載されています。
テーブル定義書
テーブル定義書とは、テーブル単位でカラム名・カラムのデータ型・主キー/結合キー、格納されているDBなどの定義が記載されたドキュメントを指します。CDPの導入においては、テーブル定義書が存在しなければ、CDPにテーブルが取り込まれた後の実物のデータを見て判断することになるため、早めに作成する必要のある重要なドキュメントになります。
PK(主キー)
PK(主キー)とは、データベースのテーブル内でNULLや空が含まれず、値の重複が存在せずレコードをユニークに識別する項目(会員番号、注文番号など)を指し、PKに設定されているカラムはテーブル同士を結合する際の結合キーとして利用されます。また、レコードに対してユニークでないものの、テーブル間の結合を行う際に整合性を取るためにFK(外部キー)という項目も存在します。例えば、会員情報テーブル(PK:会員番号)に対して購買情報テーブル(PK:注文番号、FK:会員番号)を紐づけることで購買情報に対して会員の詳細データを結合させます。
マスタデータ
マスタデータとは、PKに対して原則1対1で属性情報が格納されているテーブルで、例えばECの場合、会員情報や商品情報がマスタデータにあたります。また、それらを集約したファイルやテーブルのことを指すこともあります。マスターデータは内容が更新された場合、履歴は保持せず、原則として最新の情報のみ保持します。
トランザクションデータ
トランザクションデータとは、売上データやwebアクセスログのように時系列や履歴を格納するログデータになります。上記と同じくECの場合、仕入情報、購買情報といった日々の業務で履歴が積み上がっていくデータがトランザクションデータにあたります。
データマート
データマートとは、データ利用の用途、目的に合わせて必要なものだけを抽出、加工したデータベースを指します。CDP内ではBIツールやMA等の施策ツールに連携する際に作成し、データ容量の削減や集計値の計算といった処理時間の短縮により、連携先のツールにデータを素早く送信することができます。
今回、元メディアプランナーだった私が、Treasure Data入社後、プロジェクトを通じて耳にする機会の多かったワード10個を紹介させていただきました。CDP導入を検討中の方々を中心に、こちらの情報がご参考になれば幸いです。最後までお読みいただき有難うございました!