BigQuery で顧客のサイト内行動を把握 ‐Google アナリティクスと会員情報を連携した横断分析の実現‐ <前編>

2020.06.25

Share

「Google アナリティクス」はサイトの最適化に特化したアクセス解析ツールとして利用されてきましたが、ターゲットとなる顧客や会員それぞれについて、自社Webサイトへのアクセス内容が分かれば、より売上につながる分析が可能になります。これを聞くと、Google アナリティクスで簡単にできるのでは?と思う人は多いかもしれません。しかし、その答えはNoです。同ツールでは、特定ユーザーのアクセス内容を知ることはできても、それが誰であるのかまでは把握できない仕様になっているのです。

では、一体どのように顧客や会員のアクセス内容を知ることができるのでしょうか。答えは非常に簡単で、Googleがクラウド上で提供する「Google Cloud Platform」のサービス群に含まれる「BigQuery 」にGoogle アナリティクスのデータと会員情報を管理するBIツールを連携させるだけ。これにより、“どの会員が・いつ・どこで・どのページに・どのくらい滞在したか”を把握することが可能になるのです。

本記事では、Google アナリティクスと顧客・会員データを掛け合わせた統合分析を例に、Google Cloud Platform 、BIツールの機能と使用上の注意点を2回にわたり解説します。

 

30844677151_02

(図1:全体像と対象範囲)

Google Cloud Platform とは何か?

Google Cloud Platform は、Google が提供する従量課金制のクラウドサービスです。YouTubeやGmail、Google Play 、Google Chrome など、世界10億人以上が利用するGoogle のサービスを支える高品質かつスケーラブルな(多くの人が利用しても処理が重くならない)インフラ環境として元々、Google 社内で開発、運用されてきました。そのインフラ環境をGoogle 社外の誰もが使用できるようにサービス化したものがGoogle Cloud Platform です。Google Cloud Platform は、コンピューティング(アプリケーションの開発など)やストレージ(データ保存)を含む50種類以上の豊富なサービス群で構成されていますが、中でも大規模なデータを高速で分析することに特化したデータウェアハウス(以下、DWH)であるBigQuery は、その処理性能に加え、Google Marketing Cloud との強固な連携力により、マーケティング業界で現在注目集めています。

 

30844677151_03

(図2:Google Cloud Platform の概念図)

 

なぜ、マーケティング分野でBigQuery が注目されるのか?

一般的にDWHは、時系列に保管した大量の業務データや、その管理システムを指しています。今日ではさまざまなDWHがありますが、中でもBigQuery がマーケティング分野で注目される主な理由は、以下の3点です。

① 強固なデータ連携力(容易なデータ統合)
② 高い処理性能
③ 良心的な課金体系

① 強固なデータ連携力(容易なデータ統合)

マーケティング分野では、上記のGoogle Marketing Cloud に代表されるさまざまなツールを使用します。また、サイトのアクセスログデータや自社の会員データなど、必要なデータが異なる部門に散在している場合が多いです。BigQuery を使用することで、様ざまなツールのデータや散在したデータを容易に紐づけた分析が可能となります。

 

30844677151_04

(図3:Google Cloud Platform とGoogle Marketing Cloud の連携図)

 

② 高い処理性能

サイトのアクセスログデータは、ユーザーがクリック/ページ遷移などの行動を取る度に出力されるため、データの量が非常に多くなります。BigQuery はペタバイト(約105万ギガバイト)単位のデータであっても約5分で処理が可能なため、アクセスログデータのような大量データの迅速な処理に非常に適しています。

③ 良心的な課金体系

マーケティング部門ではさまざまな業務を行うため、データ処理ばかりに費用をかける訳にはいきません。BigQuery は処理対象データの容量に基づく従量課金制を採用しているため、無駄な費用を発生させずにデータを処理できます。

一方、誤った使い方をすると思わぬ形で費用がかさみやすい、という点には注意が必要です。例えば、データ統合が容易なため、不必要なデータ統合を行うとBigQuery内のデータの容量が過度に大きくなります。また、BigQueryは大量データを迅速に処理可能なため、様ざまなデータを統合した大量データを誤って処理したり、不必要な大量データ処理を何気なく行ったりしがちです。その結果、処理対象データの容量に従い課金が行われ、請求金額が膨れ上がります。

このような事態を防ぐためには、必要なデータを予め決めてデータを接続・統合することが重要です。以降の章では、その具体的な流れと注意点を解説します。

 

BigQuery へのデータ統合ステップ

基本的なステップは3つ。データの「用意」「接続」そして「統合」です。

下図の「データの統合までの基本ステップ」に記載されているように、BigQuery の中ではデータがテーブル(ビュー)という形で格納されます。また、同一のデータセット内に格納されたテーブル同士は、互いに紐づけ合うことが可能です。このように、異なるデータを同一のデータセット内に格納することで、データの統合が可能になります。

この中でも、Google Cloud Platform に馴染みのない方が特に注意すべきステップは「データの接続」、「データの統合」です。以降の章では、これら2つのステップに関する具体的な注意点を解説します。

なお、今回はローカル環境に存在する会員データとGoogle アナリティクス 360 (Google アナリティクスの有償版)の統合を前提としています。Google アナリティクス 360 を使用する場合、BigQuery Export という機能により容易にBigQuery にデータを接続できます。

 

30844677151_05

(図4:データの統合までの基本ステップ)

 

データの接続に関する注意点

データの接続を行う際は、事前の確認が重要です。具体的には、下記の3点を確認することが重要です。

① 統合後のテーブル定義
② 接続対象データの所在
③ 接続対象データの内容

① 統合後のテーブル定義

まず、BigQuery を活用する際に最も重要なのが、BigQuery を使って作成するアウトプット(テーブル)イメージの具体化です。これが定まらない限り、取り込みに必要なデータソースも実行すべきクエリ操作(データ統合時にBigQuery 上で行うデータの処理内容)も決められません。BigQuery を活用する前に、最終的に必要なテーブルを関係者と調整のうえ必ず具体化しましょう。

② 接続対象データの所在

統合後のテーブルの定義を具体化した後、接続に使用するデータの所在を確認します。データがGoogle Cloud Platform 環境(例えばGoogle Cloud Storage など)に存在する場合はBigQuery に標準搭載されたコネクタにより接続・統合が可能ですが、ローカル環境や外部サービス環境にデータが存在する場合は注意が必要です。データの所在によっては接続・統合に要する作業時間が想像以上にかかる場合もあるため、必要なデータセットを情報システム部門も交えて早めに確認し、接続・統合を円滑に行えるようにしましょう。

③ 接続対象データの内容

接続対象データの所在を確認後、必ず各データセットの中身を確認しましょう。これは統合結果の整合性を担保するために必要な作業です。事前に準備している統合後のテーブル定義を基に必要なカラム・値・統合キーに欠損や異常がないかを確認します。前述の通りBigQuery は処理対象データの容量に基づく従量課金制のため、事前にデータの確認と処理を済ませることで、最低限のクエリで統合が可能になり、請求金額を抑えられます。なお、データ統合の際にクエリを作成する場合の注意点は次章で解説します。

 

データの統合に関する注意点

「データの統合」では、データ統合時のクエリ作成に注意を払う必要があります。具体的には、不要なカラム(列)を可能な限り処理対象から除外するようなクエリを作成する必要があります。

BigQuery は「処理対象データの容量」に基づく従量課金制であると説明しておりましたが、より厳密に言えば「処理の際にスキャン(読み込み)されたデータの容量」に基づく従量課金制です。処理対象データの行を制限する(SQL文におけるWHERE句やLIMIT句に相当する処理を行う)ことでスキャンされるデータを少なくできるという印象をお持ちの方もいらっしゃるかもしれません。しかし、BigQuery の場合は処理対象データの行を制限したとしても、テーブル内の全ての行がスキャンされるため、行による制限が行えません。そのため、スキャンされるデータを少なくするためには、処理対象データの行ではなくカラム(列)を制限する必要があります。具体的には、BigQuery でクエリを作成する際は、必要最低限のカラムにのみ処理を行うようなクエリを作成することが必要です。

 

30844677151_06

(図5:Big Query によるスキャンのイメージ)

 

まとめ

BigQuery は処理性能に優れたサービスである一方、接続前におけるデータの確認や、従量課金制に対する注意としてクエリのスリム化などへの理解が必要となります。
(後編)では、BigQuery 上で結合したテーブルまたはビューの連携をベースにBIツール3選とその特徴、接続方法、グラフ作成を行います。
昨今では様ざまなBIツールが存在しておりますが「自社にあったツールはどれなのか」、「個々の特徴・活用イメージが沸かない」あるいは「導入したがあまり使いこなせていない」などのお声をいただくことがあるため、そのようなクライアント企業に向けて主要なBIツールの可視化の違いや活用のイメージを解説します。

本文中で紹介した機能に関しては2019年4月時点のものです。
Google および Google ロゴは、Google LLC の商標です。

BigQueryで顧客のサイト内行動を把握<後編>

<DL資料>Webアナリティクスサービスのご案内

 

この記事の著者

DIGIFUL編集部

「DIGIFUL(デジフル)」は、(株)アイレップが運営する「デジタル時代におけるマーケティング」をテーマにした、企業で活躍するマーケティング担当者のためのメディアです。

当社がこれまでに得たデータや経験から、具体的事例・将来展望・業界の最新注目ニュースなどについて情報を発信しています。ニュースやコラムだけでなく、日常業務や将来のマーケティング施策を考えるときに役立つダウンロード資料や、動画で学べるウェビナーコンテンツも随時追加していきます。

デジタルマーケティングの最新情報や知見を得るための信頼できる情報源の1つとしてお役立てください。

「DIGIFUL(デジフル)」は、(株)アイレップが運営する...

Share

一覧に戻る