我正在尝试使用AWS Glue爬网数据集并使它可在Athena中查询。我的数据集是使用^分隔列的定界文本文件。 Glue无法为该数据推断模式,因为CSV分类器仅识别逗号(,),管道(|),制表符(\ t),分号(;)和Ctrl-A(\ u0001)。有没有一种方法可以更新此分类器以包括非标准的定界符?构建自定义分类器的选项似乎仅支持Grok,JSON或XML,在这种情况下不适用。
答案 0 :(得分:0)
您将需要使用自定义的Grok模式创建自定义分类器,并在搜寻器中使用它。假设您的数据如下所示,包含四个字段:
qwe^123^22.3^2019-09-02
要处理上述数据,您的自定义模式将如下所示:
%{NOTSPACE:name}^%{INT:class_num}^%{BASE10NUM:balance}^%{CUSTOMDATE:balance_date}
请让我知道这是否对您有用。