使用非标准分隔符的CSV胶水自定义分类器

时间:2018-11-12 12:39:32

标签: amazon-web-services aws-glue

我正在尝试使用AWS Glue爬网数据集并使它可在Athena中查询。我的数据集是使用^分隔列的定界文本文件。 Glue无法为该数据推断模式,因为CSV分类器仅识别逗号(,),管道(|),制表符(\ t),分号(;)和Ctrl-A(\ u0001)。有没有一种方法可以更新此分类器以包括非标准的定界符?构建自定义分类器的选项似乎仅支持Grok,JSON或XML,在这种情况下不适用。

1 个答案:

答案 0 :(得分:0)

您将需要使用自定义的Grok模式创建自定义分类器,并在搜寻器中使用它。假设您的数据如下所示,包含四个字段:

qwe^123^22.3^2019-09-02

要处理上述数据,您的自定义模式将如下所示:

%{NOTSPACE:name}^%{INT:class_num}^%{BASE10NUM:balance}^%{CUSTOMDATE:balance_date}

请让我知道这是否对您有用。