UserEngagement_logoUserEngagement_logoUserEngagement_logoUserEngagement_logo
  • 記事を探す
    • ロール別ガイド
      • 管理者向け
      • マーケター向け
      • エンジニア向け
    • 用途から探す
      • 業務効率化・自動化
      • 新規顧客獲得
      • 既存顧客LTV向上
      • 企業DXの推進
    • 機能から探す
      • 顧客データ活用・施策連携
      • セキュリティ
      • データ加工、処理
      • データの可視化
      • 全機能をみる
    • 活用事例を探す
    • 全記事から探す
  • LINK
    • リリースノート
    • プロダクトドキュメント
    • Status Page(Incident情報)
    • Workflowサンプル集(英語)-TreasureBox
  • Academy
ログイン
✕

データ集計構造の考え方について

  • Home
  • 表示用 Data Management(ガイドページ表示用)
  • データ集計構造の考え方について
Home Article howto データ集計構造の考え方について
2021年1月21日
Categories
  • Data Management(ガイドページ表示用)
  • howto
  • PlazmaDB(ガイドページ表示用)
  • データの加工(ガイドページ表示用)
Tags
  • Data Management
  • PlazmaDB
  • エンジニア向けガイド
  • データ加工

1119581

データマネジメントチームの冨田 恭平です。
今回はデータを集計する際の考え方についてお話します。Treasure Data CDPではデータベースに格納されたテーブルに対し、SQLを用いることでデータを集計・処理することができます。

データの確認であれば簡単なSQLを書くことで行うことができますが、BIツールで可視化するためのデータ作成やCRMなどに使うためのマスターデータを作成するためには、複雑なSQLが必要になってくることも多いかと思います。そういった場合でも、簡単なSQLの繰り返しでデータを作るれるようになるための考え方をご紹介します。

目次
  1. データの把握
  2. インプットとアウトプットの棚卸し
  3. 1次処理データの用意
続きは会員登録およびログイン後にご覧いただけます。以下からログインしてください。

会員登録・ログイン

データの把握

例えば、「このCSブログのアクセス数をBIツールで可視化したい(=目的)」とするとします。よくあるCDPの活用事例だと「売上の分析をしたい」、「ロイヤリティ指標を作りたい」、「セグメント配信をしたい」などがありますが、こうしたきっかけに対して最初に行うべき事はなんでしょうか。要件のヒアリングをする、アウトプットイメージを固める、など「目的」を整理・細分化することから始めることが多いかと思いますが、個人的には「今持っているデータを把握」することが最初に行うべきことだと考えています。

今回の目的に応じたデータの把握であれば、

  • WebサイトのアクセスログがJavascriptタグで取得できている(=PV単位のログがある)
  • PVログの中でも以下の情報が使えそう
  • – ログインID(ログインしないと閲覧できないため、ユーザーIDとして利用)
    – タイムスタンプ(閲覧した日時)
    – ページURL
    – ページタイトル
    – デバイス情報(ユーザーエージェントを利用、PCかスマホか、ブラウザなど)

あたりが最初に目をつける部分でしょうか。

インプットとアウトプットの棚卸し

ここからは、「データの把握(インプット)」と「目的の整理(アウトプット)」を行き来しながら考えていくのですが、例としてはこのような形です。

    アウトプット視点だと

  • 記事のカテゴリ別のPV状況を把握したい
    →ページのカテゴリマスタがあればできる
  • ユーザー単位だけでなく企業単位でのPV状況を把握したい
    →ユーザーIDに紐づく企業マスタがあればできる
    インプット視点だと

  • ページの滞在時間を取得する(JSタグとGTMの組み合わせ)
  • →記事の読み込み度合いを可視化できそう

こうした思考を繰り返し、インプットとアウトプットを細かく棚卸ししていくことで、「データ集計」は非常に簡単になると考えていますし、このプロセスが「データ集計構造を考える」ことだと思っています。

1次処理データの用意

最終的には以下の3テーブルを一次処理データとして用意することとします。

  1. PVのログ抽出データ
  2. – ログインID
    – タイムスタンプ
    – ページURL
    – デバイス情報(PCまたはスマホ)

  3. ユーザーマスタ
  4. – ログインID
    – 企業名

  5. 記事マスタ
  6. – ページURL
    – 記事カテゴリ
    – 記事タイトル(ページURLと1対1となるようマスタ化)

ここまで用意できれば、1のPVログへユーザーマスタをログインIDでJOIN、2の記事マスタをページURLでJOINすることで、CSブログのアクセス数を可視化するための元データが完成です。

シンプルな題材としてアクセスログを使いましたが、「インプットとアウトプットを細かく棚卸する」ことを意識するとデータ集計が簡単になってくると思いますので、是非試してみてください。

今回は以上です。

Share
冨田 恭平
冨田 恭平

Related posts

2023年6月14日

トレジャーデータPSチームによるダッシュボード構築プロジェクト事例
~トレジャーデータ書籍Appendix~


Read more
2023年5月31日

ダッシュボードの普及と課題
~トレジャーデータ書籍出版記念!一部先行公開~


Read more
2023年4月25日

Cookieに依存せずに広告CV計測を支援する機能「Conversion API」


Read more

Comments are closed.


  • ホーム
  • 個人情報の取り扱いについて
  • 個人情報に関する公表文
  • インフォマティブデータの取扱いについて
  • 会員情報変更
  • 退会手続きはこちら
記事を探す
  • ロール別ガイド
  • 用途別ガイド
  • 機能別ガイド
  • 活用事例
  • 全記事一覧
Community
  • Treasure Academy
LINKS
  • リリースノート
  • プロダクトドキュメント
  • Status Page(Incident情報)
  • Workflowサンプル集(英語)-TreasureBox
Copyright 2022 Treasure Data, Inc.
    ログイン