カスタマーレプレゼンタティブチームの関川 誠です。
トレジャーデータの中では古株に入るのですが、多くのお客様と長くご一緒するなかでTreasure Data CDPの運用が軌道にのってから発生する運用面での対応も多く経験しています。
その時に利用するUtilizationの機能を中心に調査方法や対応方法をご案内したいと思います。
Utilizationは、現在のデータ量や外部連携の送信データ件数、計算リソースの利用状況など、Treasure Data CDPのリソース管理を行うためのダッシュボードです。
導入初期は計算能力、利用可能なデータ量にも余裕があるので考慮不要ですが、運用が始まった頃から定期的にUtilizationを確認すると、Treasure Data CDPの活用をより計画的に進めることができます。
トレジャーデータ側でもリソースの利用状況は確認しており、契約上限値(利用開始や更新時に締結するOrder Formに記載)に近づいたり超過すると、カスタマーサクセス担当よりお客様に連絡する運用をとっています。
このような状況になったら、まずは、Utilization画面で現状を確認し、見直しを進めていただく流れとなります。
まずは共通事項とアクセス方法からです。
Utilizationの共通事項とアクセス方法
閲覧には、Admin権限以上が必要ですが、契約プランに関わらず全てのお客様で利用可能です。時間が初期はUTCになっています。日本時間に変えたい場合は右上のプルダウンからAsia – Tokyoを選んでください。グラフにマウスオーバーすると数値を確認でき、さらにクリックすることでドルダウンメニューが表示され、より詳細なデータの確認が可能です。データは2日前の情報で、日次更新です。アクセスには、Cotorol PannelからUtilizationをクリックしてください。
日々の変化とデータソースを確認「Total Import Records – Last 3 Months」
インポート件数が増えてきた時にまず確認するのが、「Total Import Records – Last 3 Months」です。UtilizationのSummaryで画面の1番最初に表示されるグラフです。(オレンジ矢印が前述のタイムゾーン変更の設定箇所です)
データインポートは、外部からTreasure Data CDPに投入した月間の件数(=行数)ですが、他のTreasure Data CDPをデータソース(例えばTDを利用した外部サービスからのデータ取り込みなど)とするものはカウント対象外です。
この上限値はお客様により異なり、Order Form上の「Collection Rate (rows / month)」、「CDP Collection Rate」、「Infrastructure Capacity – Collection / Month」といった項目(項目名はご契約時期により異なります)で定義されています。
過去3ヶ月間の日々のインポート数の推移が表示されています。
またフィルタ機能があり、凡例のデータソースをクリックすると、その項目を除外したグラフが描画されます。
下図は上のグラフから、Data Connectorを除外してみたもので、データ量の違いから描画されていなかった他のソースの状況が確認できます。
さらにグラフの線上にマウスオーバーで日次のデータ件数を表示、クリックをすると以下のドリルダウンメニューが表示されます。
「Import Souce」を選択すると、選択したデータソースの拡大グラフが表示され、さらに画面右上のVisualization/TableでTableに切り替えることで実数も確認できます。
「Day with Database Name」を選択するとその日時点でのDBごとのデータ件数が表示されます。
なお、「Total Import Records – Last 3 Months」のとなりにある「Total Insert Records – Last 3 Months」は、契約上でインポート件数としてカウントされない、TD間連携と内部処理で生成された中間テーブルなどのデータ量を表します。凡例は、Result Outputが前者、Insertが後者です。なお、これらのデータも総件数としてはカウントされます。
インポート件数確認のポイント
グラフ上で急なスパイクが見られる場合、前後のデータとも比べながら、どのDBに対して、どのソースから多くのデータがインポートされているかを確認し、調査の範囲を絞り込むことができます。
それが意図しているもである場合は、今後の頻度やデータ量を確認することで、長期的なインポート件数を想定することができます。
一方で、継続的に増加するケースも想定されます。
ある日を境に継続してデータ量が増えている場合は、日次かアクセスログなど継続的にデータがインポートされるソースが増えたことが想定されます。
この場合もスパイクと同様に前後のデータを比べ、対象DBやソースを特定し、今後のデータ量を想定します。
この際、Data Connectorについては、Utilization – Summary にある「Data Connector In Use」を参照いただくと、前月(Last Month)と当月(Current Month)に利用している接続先を確認できます。(インポート件数の場合は、TypeでINPUTを参照)
長期の傾向はTotal Import Records – Last 18 Months
Utilization – Summary にある「Total Import Recrods – Last 18 Months」を確認すると、過去1年半にわたる毎月のインポート数合計の推移を確認できます。
同じくバーをクリックすることでドリルダウンメニューが表示され、ソース単位にDBごとのデータ件数が確認可能です。
確認後の対応について
インポート件数の増加原因が特定され、不要なものがわかった場合にはタグの削除やData Connectorの設定を見直して、削減のための対応をいただきます。
特にData ConnectorやEmbulkを利用したバルクでのデータインポートは、全件洗い替えから差分でのインポートに切り替えることで件数削減と同時に処理時間の短縮につなげていただいたケースもあります。
一方で、今後も増加が見込まれる場合は、カスタマーサクセス担当と協議いただき、契約値の見直しを進めます。
この際、データ量の増加に伴う処理能力不足になっているケースもあるため、計算リソースの見直しも同時に進めることをおすすめます。
尚、お客様側の調査で原因特定が難しい場合などは、調査のサポートをいたしますので、カスタマーサクセス担当までご相談ください。
次回は、データの総件数が超過するケースについて説明したいと思います。