Google AnalyticsAPI:活动小时数与会话小时数?

时间:2016-05-14 14:51:54

标签: google-analytics google-analytics-api

假设我有以下查询:

d1 = service.data().ga().get(
      ids='ga:xxxxxxx',
      start_date='2016-04-25',
      end_date='2016-05-14',
      metrics='ga:users',
      dimensions='ga:dimension1,ga:hour,ga:date',
      sort='-ga:date',
      start_index='1',
      max_results='1500').execute()

d2 = service.data().ga().get(
      ids='ga:xxxxxxx',
      start_date='2016-04-25',
      end_date='2016-05-14',
      metrics='ga:uniqueEvents',
      dimensions='ga:dimension1,ga:eventCategory,ga:eventAction,ga:eventLabel,ga:date,ga:hour',
      sort='-ga:date',
      start_index='1',
      max_results='1500').execute()

ga:dimension1正在填充每个用户唯一的用户范围的客户端ID。

目标是在d1d2ga:date上加入ga:hourga:dimension1

但假设用户在第10小时开始会话,并在第12小时触发事件。d1会给出小时= 10,但是d2会给出小时= 10或12?

1 个答案:

答案 0 :(得分:0)

事件将在事件发生时获得,即d2将在您的示例中给出小时= 12。

我的方法是在查询中添加维ga:sessionDurationBucket,以秒为单位给出会话的持续时间(请参阅here)。我不确定您使用什么语言来访问api,无论如何我不会发布代码但只是解决问题的步骤。 (我使用R,当然,如果您认为有帮助,我可以发布我的代码。

  • 我为ga:datega:hourga:minute

  • 中的每条记录构建时间戳
  • 我按ga:dimension1ga:sessionDurationBucket

  • 对记录进行分组
  • 对于每个组,循环:(a)我得到较旧的时间戳,并添加会话持续时间(ga:sessionDurationBucket / 60 + 1)/(60 * 24)以获得"最后"时间戳,(b)我为会话分配从第一个时间戳到会话的最后一个时间戳的所有记录,以及(c)如果有剩余记录,新的第一个时间戳是这些剩余记录的旧时间戳,我去了至(a)

  • 循环之后,"全部"寄存器被分配给一个会话,我进行处理(我把所有寄存器都放在引号之间,因为在这个过程中可能有一些我无法分配的寄存器,但通常是一个可以忽略不计的数字)

我希望它足够清楚并且有所帮助。如果您认为它有用,我可以发布R代码,或者如果您告诉我您使用的是哪种编程语言,我可以尝试重写它......

评论后

添加:R

中的示例代码

我正在使用RGoogleAnalytics库,这是我运行的查询(请注意,在这种情况下,我不会使用dimension1,因为我正在使用的网站是没有设置):

query.coll.d <- Init(start.date=start_date.d,
                     end.date=end_date.d,
                     dimensions=c("ga:date",
                                  "ga:hour",
                                  "ga:minute",
                                  "ga:sourceMedium",
                                  "ga:pagePath",
                                  "ga:previousPagePath",
                                  "ga:sessionDurationBucket"),
                     metrics=c("ga:sessions",
                               "ga:pageviews",
                               "ga:newUsers"),
                     table.id="ga:XXX view id XXX",
                     sort="-ga:date,-ga:hour,-ga:minute",
                     max.results = 20000)

ga.query.d <- QueryBuilder(query.coll.d)
ga.data.coll.d <- GetReportData(ga.query.d, token, paginate_query=TRUE)

由此,我构建时间戳(注意GA不提供秒数),

require(chron)
ga.data.coll.d$datetime <- chron(ga.data.coll.d$date, paste(ga.data.coll.d$hour,
                                                            ga.data.coll.d$minute,
                                                            '00',
                                                            sep=":"),
                                 format=c("ymd","h:m:s"))

这是一个使用全局变量创建唯一userId的函数,以便我稍后可以在我的函数中使用它。

userId <- 1
getNewId <- function() {
  current <- get("userId", envir = .GlobalEnv)
  current <- current + 1
  assign("userId", current, envir = .GlobalEnv)
  return(current)
}

这是我根据上面尝试描述的算法处理组结果的函数,其中sessionDurationBucket是整数,datetimessessions是组的会话列表和时间戳。

one_minute <- 1/(60*24)
setUserId <- function(datetimes, sessions, sessionDurationBucket) {
  if (length(datetimes) == 1) {
    # just one row received
    return(getNewId())
  }
  if (sum(sessions) == 1) {
    # just one session, all rows belong to the same user
    return(getNewId())
  }
  users <- rep(NA, length(datetimes))
  if (sessionDurationBucket == 0) {
    # sessions of 1 page and length 0 => assign a user per session
    for (i in 1:length(datetimes)) {
      users[i] <- getNewId()
    }
    return(users)
  }
  # general case
  minutes <- ceiling(as.numeric(sessionDurationBucket)/60) + 1
  i <- 1
  while(TRUE) {
    index_lag <- (datetimes >= datetimes[i] - minutes*one_minute) & is.na(users)
    sessions_lag <- sum(sessions[index_lag])
    if (sessions_lag == 1) {
      users[index_lag] <- getNewId()
    } else {
      # two or more sessions mixed together
      users[index_lag] <- 0
    }
    # look for remaining users (without id yet)
    rem_users <- which(is.na(users))
    if (length(rem_users) == 0) {
      break
    }
    i <- min(rem_users)
  }
  return(users)
}

我使用data.table来运行群组并创建新列(请注意,在您的情况下,您可以在群组中使用dimension1而不是sourceMedium。另请注意,它假设寄存器按日期反向排序,这在GA查询中完成。

require(data.table)
ga.data.coll.dt <- data.table(ga.data.coll.d)
ga.data.coll.dt[, userId:=setUserId(datetime, sessions, sessionDurationBucket), by=list(sessionDurationBucket, sourceMedium)]

最后,我删除所有userId等于0的寄存器,因为对于那些上面的代码无法解析会话。就我而言,数字可以忽略不计。

我实际上打算在我不起眼的博客上写一篇文章,包括一些更多的解释,但是直到月底我才能做到这一点......希望它有所帮助。