Bigquery条件拆分聚合失败

时间:2016-01-12 07:47:45

标签: google-bigquery

我有一个类别列,其字符串包含由“|”分隔的变量位置的子类别字段。每个子类别的位置取决于字符串中的项目数。例如:

category    subcat1    subcat2    subcat3
a|b|c       b          c          a
x|y|a|b     b          null       a

所以,要解决一个类别,我有:

SELECT
  a.category AS category,
  case
    WHEN COUNT(SPLIT(a.category, "|")) = 4 then nth(4, SPLIT(a.category, "|"))
    WHEN COUNT(SPLIT(a.category, "|")) = 3 then nth(2, SPLIT(a.category, "|"))
    WHEN COUNT(SPLIT(a.category, "|")) = 2 then nth(2, SPLIT(a.category, "|"))
    else null
  end as subcat1,
  --nth(2, SPLIT(a.category, "|")) as x      --uncomment for success.  see below
FROM
  [interim_groups.articles_unique] as a

运行此操作失败:

SELECT clause has mix of aggregations 'subcat1' and fields 'category' without GROUP BY clause

现在我不想要一个group by子句,并且它没有意义,但是如果我包含它,它就会开始抱怨范围内的聚合,这似乎是朝着错误的方向发展的。

如果我使用if语句而不是case语句,则会出现同样的情况。

现在这是奇怪的一点。如果我在查询中有注释行(或者last(SPLIT(a.category, "|")) as x),则查询会完美无缺。

这是一个错误吗?我的查询看起来正确,并且我的查询中有一个额外的列以某种方式使其通过是奇怪的 有没有更好的方法来解决这个问题,而不仅仅是留在一个不必要的列来稳定查询?

2 个答案:

答案 0 :(得分:5)

查询缺少“记录内容”。关键词。

SELECT
  a.category AS category,
  case
    WHEN COUNT(SPLIT(a.category, "|")) = 4 then nth(4, SPLIT(a.category, "|"))
    WHEN COUNT(SPLIT(a.category, "|")) = 3 then nth(2, SPLIT(a.category, "|"))
    WHEN COUNT(SPLIT(a.category, "|")) = 2 then nth(2, SPLIT(a.category, "|"))
    else null
  end WITHIN RECORD as subcat1 ,
FROM (SELECT category FROM
  (SELECT 'a|b|c' category), (SELECT 'a|b' category), (SELECT 'a|b|c|d' category)) a

请参阅WITHIN的文档:

WITHIN关键字专门用于聚合函数,以便跨记录和嵌套字段中的子项和重复字段进行聚合。指定WITHIN关键字时,需要指定要聚合的范围 -     WITHIN RECORD:聚合记录中重复值的数据。

https://cloud.google.com/bigquery/docs/data#within

答案 1 :(得分:2)

我认为使用String functions您可以相对轻松地提取管道分隔字符串

中的最后一个组件

与此同时,在使用Regular expression functions的版本之下 - 对于可能更复杂的场景更为强大

SELECT
  a.category AS category,
  CASE
    WHEN LENGTH(REGEXP_REPLACE(a.category, r"[^|]", "")) = 4 
           THEN REGEXP_EXTRACT(a.category, r'\|\w+\|\w+\|\w+\|(\w+)')
    WHEN LENGTH(REGEXP_REPLACE(a.category, r"[^|]", "")) = 3 
           THEN REGEXP_EXTRACT(a.category, r'\|\w+\|\w+\|(\w+)')
    WHEN LENGTH(REGEXP_REPLACE(a.category, r"[^|]", "")) = 2 
           THEN REGEXP_EXTRACT(a.category, r'\|\w+\|(\w+)')
    ELSE NULL
  END AS subcat1
FROM your_table a

没有分组,没有问题的不必要的专栏!