来自Excel格式文件的AWS Glue

时间:2019-05-09 11:04:43

标签: excel amazon-web-services csv xlsx glue

我有一些.csv格式的文件,我需要使用AWS胶从S3存储桶中进行爬网,然后使用胶水作业将其上传到Aurora RDS。

它们是由同事使用Excel保存的,但是由于Excel不支持UTF-8编码,它们可能是Win-1252编码的吗?无论如何,它们不是UTF-8,也没有被AWS Glue搜寻器正确分类。将文件转换为xlsx或xls不会改善问题,因为Glue也没有针对它们的分类器。

除了保存为文本并手动编辑每个文件外,还可以从Excel中保存AWS Glue可以正确爬行和解析的哪些格式?与这样一个无处不在的程序没有兼容性似乎很奇怪,即使它是Excel ...

1 个答案:

答案 0 :(得分:0)

很遗憾,如AWS Glue Key Concepts doc所述,基于文本的格式必须采用UTF-8。

我相信,当您使用文本格式以excel格式导出文件时,您可以选择使用UTF-8作为编码,或者至少使用过去的编码。如果您可以从Excel转换为UTF-8,那将是解决问题的最简单方法。