AWS Glue Crawler无法分类CSV文件

时间:2019-05-28 22:02:41

标签: amazon-web-services amazon-athena aws-glue aws-glue-data-catalog

我无法获取默认的搜寻器分类器,也无法使用自定义分类器来处理我的许多CSV文件。分类被列为“未知”。我尝试过重新运行现有的分类器,以及创建新的分类器。是否有人知道适用于任何大小文件的CSV文件自定义分类器的特定配置?

我也无法在日志中找到与此问题相关的任何错误。

尽管我已经看到有关大小超过1MB的JSON文件的问题的参考,但是找不到关于CSV文件相同问题的详细信息,也没有解决问题的方法。

1 个答案:

答案 0 :(得分:0)

Glue Crawler支持的默认CSV分类器:

  

CSV-检查以下定界符:逗号(,),竖线(|),制表符   (\ t),分号(;)和Ctrl-A(\ u0001)。 Ctrl-A是Unicode   标题开始的控制字符。

如果还有其他定界符,则它将不适用于默认的CSV分类器。在这种情况下,您将必须编写grok模式。