如何使用regexp_extract从Big Query中的键值对数据中提取特定字符串?

时间:2015-10-13 19:15:08

标签: regex bigdata google-bigquery

我正在尝试提取特定键'xyz'的值,并尝试使用以下正则表达式来完成它。这是处理键值对的有效方法吗?如果有任何其他更有效的解决方案,有人可以建议我。谢谢。

**

 - Input & SQL :-



**

 SELECT FIRST( SPLIT( regexp_extract(kvp,r'SuppressFlexCacheHydrationIndicator=(.*)&'), '&' ) ) AS SuppressFlexCacheHydrationIndicator,
       regexp_extract(kvp,r'campaignName=(.*)$') AS campaign,
       regexp_extract(LOWER(kvp),r'resultcode=(.*)&') AS resultcode,       
  FROM ( SELECT 'SuppressFlexCacheHydrationIndicator=True&templateVersionId=5&vmtaText=mail2&sequenceId=300&resultCode=DoNotMailBounceList&campaignName=classicimport' AS kvp )

Output :-

    SuppressFlexCacheHydrationIndicator campaign        resultcode   
    True                                classicimport   donotmailbouncelist  

评论: -

在上面的SQL中我使用FIRST(SPLIT())从输入中提取子字符串,我认为它不起作用,只能使用正则表达式实现。如果有的话,请分享你的见解其他可能的解决方案。谢谢。

1 个答案:

答案 0 :(得分:1)

我会使用稍微不同的正则表达式来避免SPLIT和FIRST成本,以及编码有关URL中参数位置的特殊知识:

SELECT regexp_extract(kvp,r'SuppressFlexCacheHydrationIndicator=([^&]*)') AS SuppressFlexCacheHydrationIndicator,
       regexp_extract(kvp,r'campaignName=([^&]*)') AS campaign,
       regexp_extract(LOWER(kvp),r'resultcode=([^&]*)') AS resultcode,       
  FROM ( SELECT 'SuppressFlexCacheHydrationIndicator=True&templateVersionId=5&vmtaText=mail2&sequenceId=300&resultCode=DoNotMailBounceList&campaignName=classicimport' AS kvp )