适用于多分隔符的AWS Glue分类器不起作用

时间:2019-11-14 15:25:08

标签: amazon-web-services amazon-s3 amazon-ec2 aws-glue logstash-grok

我正在尝试对位于|〜|的s3中的CSV文件运行搜寻器。是分隔符。我给定界符如下:

custom classifier

我运行了搜寻器,但是它无法读取数据并创建一个空表。我有600多列,并且不确定如何为此创建GROK模式。 Hive提供了一种轻松删除多定界符的方法,例如:'field.delim'='|〜|' 我试图使用Athena来做同样的事情,但是没有运气。我不想再次使用python代码重新处理整个文件(20GB),只是为了替换/删除定界符。

有人遇到过同样的问题吗?任何帮助将不胜感激。

谢谢!

1 个答案:

答案 0 :(得分:0)

胶水和火花不支持Multichar分隔符。

分隔符只能是一个字符。