嗨,我无法使用以下csv文件模式对数据进行爬网?任何建议真的很有帮助

时间:2018-08-14 15:51:20

标签: amazon-web-services aws-glue

我的csv文件模式。

00001000236^805^0013^48439-2518^02

我正在尝试为上述csv文件格式创建grok模式。

grok pattern:%[ ^ ][ ^ ][ ^ ][ ^ ] 

请让我知道我是否想念东西

1 个答案:

答案 0 :(得分:0)

分隔符^是一个特殊字符,每次引用时都需要用\进行转义。

如果定义自定义模式HATSEPERATED [^\^]*,则所需的grok表达式为%{HATSEPERATED:A}\^%{HATSEPERATED:B}\^%{HATSEPERATED:C}\^%{HATSEPERATED:D}\^%{HATSEPERATED:E}

自定义表达式是零个或多个不是^的字符。有关交互式说明,请参见Regexr

Grok表达式只有5列,用^分隔。尝试使用grok debugger进行尝试。名称AB等可以是任何单词,因此我建议重命名它们。