カスタマーオンボーディングチームの小暮 和基です。
データ価値の考察と題した記事後半となります。前半分はこちらよりご参照ください。前回記事では、データそのものの価値について、平成30年版総務省情報通信白書を引用しつつ、以下の考えを述べさせていただきました。
データを多く集めること自体には必ずしも価値はなく、そこから取り出される様々な意味や知見にこそ価値がある。
引用:情報通信白書
著者補足
- もともとデータそのものに価値(=様々な意味や知見)は内包されている
- データに内包された価値は顕在化しないこともある
本稿ではその続きとして、各企業様においてデータの価値を向上させるための考え方やいくつかのポイントについて考えを述べさせていただきたいと思います。
データから価値を取り出すまでのステップ
早速ですが、データに内包された価値を顕在化させるステップは一般に以下のような流れになります。
図:データから経済効果として創出・転換されるまでのステップイメージ
- ある事実を示すものとして、データが抽出される
- 全体的/断片的であるか、統計的/具体個別的であるかは問わない
- 事実を正しく示していないものは対象外
- データをもとに、様々な意味や知見を取り出す
- 必ずしもひとつのデータからではなく、関連した事実から抽出されたデータを組み合わせることで取り出すことができる意味や知見もある
- 意味や知見として取り出されず、顕在化しないケースもある
- 取り出された様々な意味や知見が、何らかの手段により経済効果として創出・転換される
- 同じように取り出された様々な意味や知見であっても、手段の有無や内外の環境・状況などによって、創出・転換される経済効果は異なる
上記の重要事項についていくつか補足させていただきますと・・・
1で「データはある事実を示すもの」と規定しています。これを言い換えると、事実を示さないもの、例えばデータの取得方法が誤っていて事実を正しく示せていない場合や、データ入力者の考えや志向が反映され事実が婉曲されている場合などは、この前提から外れることになります。(nullデータも事実を示すものではありません)
また、3で「経済効果として創出・転換される」と記載しています。冒頭および前半記事では「データそのものに価値(=様々な意味や知見)は内包されている」と主張させていただきましたが、直接的であれ間接的であれ、ビジネス視点での価値とは経済効果に繋がらなければ意味がありません。本稿は各企業様におけるデータ価値を向上させるための考え方やポイントについて言及させていただくものですので、価値(=様々な意味や知見)が経済効果として創出・転換されるまでをスコープとします。
データの価値を向上させるポイント
ここからはデータに内包される価値を顕在化させ、より高い経済効果を生み出すためにはどのようなポイントが存在するのかについて考えてみます。まずは前項に記した「データから経済効果として創出・転換されるまでの3ステップ」に沿って見ていきたいと思います。
【STEP1】ある事実を示すものとして、データが抽出される
これはある事実から個別のデータが抽出されるステップです。ここで抽出されるデータとは、いわゆるローデータを思い浮かべていただければと思います。ローデータとしての価値をより高めるための要素は、以下の6つのポイントが挙げられます。
- メタデータ(データ取得時の前提条件)の有無
- データ量
- データ質
- 市場希少性
- 連続性
- データ抽出からの経過時間
メタデータ(データ取得時の前提条件)の有無
前項にて触れたように「事実を示さないもの」はデータとして見做しませんが、一方でその真偽はデータを眺めるだけで判断することは困難です。そこでデータ取得時の前提条件などがメタデータとして示されていることが重要となります。
具体項目としては
- いつ/どこで/誰から/どうやって取得されたデータなのか
- データの取得方法が適切であったか
- バイアスが掛かっているならばそれはどのようなものか
- 統計処理されたデータであればサンプル数や統計誤差範囲はどの程度なのか
などが含まれるでしょう。
データ量
データ価値のポイントとして真っ先に皆様が思い浮かべるのはこちらではないでしょうか?データとして抽出する際、その事実の網羅性がどの程度あるのかを意味します。ローデータでは縦のレコード数のみをイメージされる方が多いのですが、横のカラム数もデータ量に掛かる項目です。
データ質
量と対をなして挙げられるポイントです。ある事実をデータとして抽出する際の事実の具体性を指します。ここでは大きく以下の3項目があります。
- フィールド項目が正しく区分けできているか ・・・細かく区分けされているとベター
- データ充足度 ・・・未入力やnullがどれくらいあるか
- データ精度/信頼性 ・・・入力精度が高く信頼をおけるか
市場希少性
モノと同じように、データも希少なものほど価値が高くなる傾向があります。なぜならそこから取り出される様々な意味や知見はコモディティ化されていない場合が多く、経済効果を生み出しやすくなるからです。しかし単に独自性があれば良いというものではなく、市場に受け入れられるような汎用性が備わっている必要があることに注意してください。
連続性
これは主にデータをトレンドで追いかけたい場合にまつわる項目です。トレンド分析は基本的な手法の一つですが、1つのピースが欠けるだけでその目的(トレンドでデータを追うこと)が十分に果たせなくなります。イメージとしては毎月入ってきているデータがあるが、ある特定の月だけ取得ができず歯抜けになってしまった状態をご想像いただければと思います。意外と軽視されがちな項目ではあるのですが、データを継続的に取得することはそれだけでデータ価値を高めることができる手法なのです。
データ抽出からの経過時間
一般には取得時からの経過時間が短いほうが好ましく、(データ内容にも依りますが)特にリアルタイムデータは価値が認められやすい傾向にあります。反面、古いデータなども前出の市場希少性と相まって価値が高くなる場合があります。
【STEP2】データをもとに、様々な意味や知見を取り出す
データには価値が内包されているという立場に立てば、そこからどれだけ多くの価値を顕在化できるか/様々な意味や知見を取り出せるかが重要な要素となります。ここについては様々なポイントや手法があるのですが、本稿では「様々な意味や知見を取り出しやすいデータの状態」の一部にフォーカスを当てたいと思います。
ポイントは「ひとつのデータからではなく、関連事実から抽出されたデータを組み合わせて分析することで取り出すことができる意味や知見もある」ということ。
その代表例として論理的推論方法として有名な帰納法があります。この手法は複数の事象などから探しだされた共通点や根拠をもとに結論を導き出すものであり、分析業務においても様々な意味や知見を取り出す際に多用されています。ただし帰納法が成立するためには「複数の事象と手元にあるデータの間に類似性や関連性が存在すること」が前提として求められ、それが立証できなければ信憑性が疑われることになります。
複数データ間の類似性や関連性を立証することはなかなかに困難な作業であり、ほとんどの場合は証拠を伴った立証に至らないケースが多いよう感じます。さらに担当者個々の主観や感覚でデータ間の類似性や関連性が主張されてしまうと、結論が誤ってしまったり不確実性をはらんだものとして扱われてしまうことになるでしょう。データ間に横たわる関連性・結びつきを強固にすることで、異なる事実やデータの組み合わせから新しい意味や知見を得やすくすることができ、それにより結論の信憑性も担保されるようになります。
ではどうやって異なる事実やデータに関連性・結びつきを持たせるのか?その明確な解のひとつが『データ統合』です。
CDPの文脈で言えば、顧客IDなどをキーに統合することで、ウェブサイトのアクセスログや購買データなどといった異なるデータを結びつけることができます。もちろん”データ統合”なので複数データを直接結び付けていて、関連性を見いだすというレベルではないのですが。
複数データ間の関連性・結びつきがデータ統合により事前に立証されていれば(上の例で言えば「データAとデータBは関連性がある、なぜならこれらは同じ人物によるデータだからだ」と言えれば)、より確かな結論が早期に導き出しやすくなります。データ統合は「様々な意味や知見を取り出しやすいデータの状態にすること」と同義であることを覚えておいていただければと思います。
※分析をより高度効率化するためには他にも多くのポイントがあります。分析に適したデータマートの作り方であったり、データ整形・加工による個々のデータへの意味付けなどもそのひとつです。ぜひ別メンバーのブログなどもご参照いただければ幸いです。
【STEP3】取り出された様々な意味や知見が、何らかの手段により経済効果として創出・転換される
先にも述べましたがビジネス視点から各企業様のデータ価値向上を考えたとき、取り出された様々な意味や知見がどれだけ素晴らしくてもそれを経済効果に繋げられなければ意味がありません。
例えばA社とB社は同一の知見からそれぞれ1,000万円の収益を上げることが期待できるとします。しかしB社は経済効果として創出・転換するための手段を持っておらず、その手段構築のために800万円掛かるとしたら、B社の期待経済効果は差し引き200万円です。さらに言えば手段はあっても活用しなければ期待経済効果も0です。取り出された様々な意味や知見が同じでも、そこからどれほどの経済効果に繋げられるかは経済効果として創出・転換する手段の有無や社内外の環境などによって、企業ごとに異なるのです。
今後どんな意味や知見が生まれるかわからないなかではあらかじめ全方位的に手段を用意しておくことは非現実的ですが、このことから、データ価値を最大限引き出せるよう、企業マネジメントやデータ活用の”アジリティ(Agility/機敏性)”を高めることが重要なポイントとなります。
※一般にアジリティ向上は容易な取り組みではないものの、Treasure Data CDPは500を超えるコネクターを有し、数多の施策ツールとのデータハブ機能を備えています。都度の開発なくツール間接続・データ連携ができるため、ご契約企業様のアジリティを高める一端を担っています。
まとめ
ここまで、データ価値を取り出すステップから、それを向上させるポイントについて記載させていただきました。改めて自分で見返してみても実務への還元は難しい主張をしているように思います、、、笑
しかし私が今回もっともお伝えしたかった内容は、データ価値を向上させる(=享受される経済効果を最大化する)ためには、ローデータを見直す以外にも方法がある、ということです。例えば「データ統合」による異なるデータの結び付けであったり、CDP導入によるツール間連携の「アジリティ向上」であったり、Treasure Data CDPがデータ価値を引き出すための有効なソリューションであることも併せてご理解いただければ、非常に嬉しく思います。