生データを配信するData Feeds

生データを配信するData Feeds

生ログを定期または一度のみ配信する機能。GA4でのBigQuery連携に相当しますが、BigQueryにエクスポートされるGA4データはある程度前処理されているのに対し、AAのData Feedsは収集された無加工の生データに近いので、利用するための前処理が必要になります。このヒット単位の未加工データはTSV(タブ区切りテキスト)形式で入手し、別のシステム(データマートやBI)で再利用できます。

以前はカスタマーケアへ設定を依頼する必要がありましたが、高まるニーズを受けて、2017年からは管理者が自身で設定を変更できるようになりました。

Analytics データフィードの概要 | Adobe Analytics
Web サイトやモバイルアプリケーションから収集されたり、Web サービス API またはデータソースを使用してアップロードされたりしたデータの処理されてアドビの Data Warehouse でに格納されます。この生のクリックストリームデータは、Adobe Analytics で使用されるデータセットとして形成されています。

Data Feedsの配信方法

  • マスターファイルを含む13のTSVファイルが日単位でTar+Gzip圧縮されて配信される
  • ファイル名はRS名_YYYY-MM-DD.tar.gz
  • 毎日または毎時間の定期配信が可能
  • 過去にさかのぼることができる(Data Warehouseに計測データがある範囲で)
  • 終了日(最後の配信日)を指定できる
  • 配信タイミングは準備ができ次第(混雑状況やデータ量による)
  • Report Suiteで設定したタイムゾーンで日付が変わると、順次処理が開始される
  • 転送方法は(s)FTPサーバーとAmazon S3、Google Cloud Platform、Azure RBAC、Azure SASから選択可能
  • 自前FTPサーバーを用意できない場合はftp4.omniture.comの無料FTPアカウントを作れるが、容量が2GB、ファイル数が最大50まで、IP制限やSFTP強制などのセキュリティ設定ができない、パスワードを変更できない、などの制約がある
  • FTPサーバーのポートは21番のみに対応
  • SFTPでの転送を希望する場合は、Adobeに依頼し、authorized_keysを入手して.sshディレクトリに格納する
  • FTPには排他処理が無いため、各ファイルの転送完了時に、転送完了時間、ファイルサイズ、MD5チェックサムが書かれた「同じファイル名.fin」ファイルを転送してもらうオプションを推奨

Feed処理で気を付けるべき点

  • UTF-8の場合、マルチバイト文字は1文字につき2~4バイト(平均3バイト)を消費するため、pageNameやpropなどの100文字制限を30文字前後、eVarの255文字制限を80文字前後で超えてしまう。Data Feedは生データのため、マルチバイトの途中で強制的にカットされ、最後の文字が化けた状態のままTSVファイルに記述されることがあり、タブで正常にカラムを区切ることができなくなることがある。長いマルチバイト文字は計測時に制限文字数内にトリミングしてから送信すると良い。
  • FTPによる転送では、ファイルの排他処理が行われないため、転送の途中なのか完了したのかを判定することができない。また、同じファイル名で同時に転送すると、二つのファイルが混じり合ってしまうことがある。そのため、同じRSについてのFeedはディレクトリを分ける必要がある。また、FTPでは通信障害があってもファイルの完全性チェックや再送信が行われないため、ファイル転送完了時に.finファイルを転送するオプションをONにする必要がある。MD5によるチェックサムが.finの中に記述されるため、ファイルの妥当性を検証するのも有効。
  • ファイルは使い終わったら消去する必要がある。提供されるFTPサーバーの場合、保持できるファイル数や容量に制限があり、それを超えるとエラーになるが、メール通知が行われないため、エラーに気づきにくい。