我的网站平均每周大约有30万个会话,而Google Analytics(分析)开始返回约50万个会话的采样数据。这意味着,如果我尝试在一周内获取任何数据,我将获得采样数据-我想避免这种情况。
我需要帮助弄清楚如何在较大的日期范围内进行迭代(每周/每天重复),这样我才能避免采样。
作为参考,我添加了用于从GA帐户提取数据的代码:
from google2pandas import *
import numpy as np
import pandas as pd
import time
import datetime
##-----------SETUP-----------##
SCOPES = ['https://www.googleapis.com/auth/analytics.readonly']
KEY_FILE_LOCATION = 'client_secrets.json'
VIEW_ID = 'XXXXXXX'
START_DATE = '2018-01-01'
END_DATE = '2018-08-31'
##-----------PULLING IN DATA-----------##
query1 = {
'reportRequests': [{
'viewId' : VIEW_ID,
'dateRanges' : [{'startDate': START_DATE,'endDate': END_DATE}],
'dimensions' : [{'name': 'ga:date'}],
'metrics' : [{'expression': 'ga:sessions'}]
}]
}
conn = GoogleAnalyticsQueryV4(secrets= KEY_FILE_LOCATION)
df = conn.execute_query(query1)
df.head()
查询被简化为仅输入日期和会话(以简化测试),但是,如果有人对上下文感兴趣,我们的渠道定义调整不正确,我需要提取源代码/最近12个月内的媒体/广告系列(避免抽样),并使用熊猫对渠道进行正确分类以进行报告。
谢谢您的帮助!