データマネジメントチームの木部 弘也です。
Master SegmentsおよびAudience Studioを用いることで、Treasure Data CDP上に集約したデータに対して、SQLなどの言語を使用せずに、GUIからデータの抽出、セグメント作成、さらには機械学習の実行が可能になります。Master Segmentsでは、Auidence Studioの各種操作で利用するデータモデルを定義します。以降、Master Segmentsの基本操作と利用にあたって最低限知っておきたいこと3点をご紹介します。
基本操作
Master Segmentを定義は、GUI上の操作のみで完結します。以下が、基本的な操作内容になります。
- Treasure Data Consoleの[Data Workbench] -> [Master Segments]をクリック
- 新規作成の場合は[New Master Segments]を、既存のMasterを開く場合は、リストから対象のMaseter Semgmentをクリック
- Master Segments設定画面で、各項目をプルダウンメニューまたはラジオボタンから指定し、[Save]をクリック後に[Run]をクリックし、実行する
知っておきたいこと1:テーブルの事前準備
Master Segmentsで扱うテーブルを用意する際に考慮すると良い点をご紹介します。
Master Segmentに指定するテーブル
Master Segmentを定義する際には、以下のようなテーブルを準備する必要があります。
Master Tableは、個人を示すIDのリストです。必須となるテーブルです。Attribute Tableは、Master Tableに属性データ紐付けるためのテーブルです。属性データとして性別や年齢に加え、特定期間でのある項目の集計値なども持たせておくことで、Predictive Scoringの説明変数として使用することもできます。
Behavior Tableは、行動データをMaster Tableに紐づけるためのテーブルです。Webサイトアクセスログや購買履歴などが該当します。Attribute および Behavior Tableは、 Master Tableと紐づけるためのカラムを含む必要があります。また、複数のテーブルを指定することが可能です。
データフロー
多くの場合、Master Segmentに定義するMaster Table、Attribute Table、Behavior Tableは事前にWFで加工しておく必要が出てきます。L1のテーブルをそのまま使用することも考えられますが、運用に応じてMaster Segment向けのテーブルというかたちでL2にテーブルを用意して運用するということも考慮に入れます。
カラム名(データエンリッチ)
特定のカラム名を使用することで、Audience Studio上での操作や表示を一部制御することができます。Behavior Tableのtimeカラムは、Segment作成時のTimeStampとして条件指定した際に参照されます。元データがCSVファイルだった場合には、timeカラムは各レコード(イベント)が発生した日時にはなっていないため、前処理でtimeカラムになるように処理しておきます。(例えば、購買履歴をCSVで投入した場合には、購買日時を示すカラムを型変換などしつつ、timeという名称のカラムにしておくイメージです。)
また、[Profiles]の画面などで表示したい文字列がある場合、Master Tableにnameという名称のカラムを用意します。(nameカラムは、型はstringとしてください。)その他については、ドキュメントを参照ください。
知っておきたいこと2:生成されるエンティティ
Maseter Segmentの定義が完了後、実行すると、WorkflowとDB/TBLが生成されます。なお、これらはシステムが自動生成し、システムにより適宜参照されるものになるので、手動での編集・変更は行わないようにしてください。
Workflow
Master Segmentの設定画面で定義した内容に基づいて、Master Table、Attribute Table、Behavior Table間の結合などの一連の処理は、Workflowとして生成されます。Workflowは、cdp_audience_idという名称で作成されます。id部分は、Master Segmentの設定画面のURLで確認できるidと同一のものになります。
Master Sementの設定画面から、当該Workflowを参照する場合には、[View History]->[Last Attempt]をクリックすることで、Workflowの画面に遷移します。
また、既存のWorkflowを[Data Workbench] -> [Workflows]のリスト上で確認したい場合には、 画面右にあるTYPEのチェックボックスで[Master Segment]をONにすることで、リスト上に表示されるようになります。
DB/TBL
cdp_audience_idという名称でDBが作成されます。このDB内に、Master Segmentで指定したテーブルを基にした、customers や behaivior といったテーブルが生成され、Audience Studioで参照されます。
また、当該DB内には、Audience Studioの各種操作に合わせて、自動的に関連するテーブルの追加や更新が行われます。
知っておきたいこと3:スケジュール実行
多くの場合、元テーブルのデータは都度追加/更新されます。これに合わせて、Master Segmentも更新する必要があります。
Master Segment単体での指定方法
Master Segmentの設定画面上で、Master Segment単体での実行スケジュール設定が可能です。
Workflowに組み込む方法
Master Segmentの自動生成Workflowを別Workflowから呼び出すかたちで、他の処理と一緒にスケジューリングすることが可能です。これにより、前処理と連動したスケジュール実行が可能となります。