Question

有一个excel文件testFile.xlsx，如下所示：

ID  ENTITY  STATE
1   Montgomery County Muni Utility Dist No.39   TX
2   State of Washington WA
3   Waterloo CUSD 5 IL
4   Staunton CUSD 6 IL
5   Berea City SD   OH
6   City of Coshocton   OH

现在，我想将数据导入AWS GLUE数据库，已创建AWS GLUE中的爬网程序，运行爬网程序后，AWS GLUE数据库中的表中没有任何内容。我想这应该是AWS GLUE中的分类器问题，但是不知道如何创建一个合适的分类器来成功地将excel文件中的数据导入AWS GLUE数据库。感谢您的任何答案或建议。

Answer 1

胶搜寻器不支持MS Excel文件。如果要为excel文件创建表，则必须先将其从excel转换为csv / json / parquet，然后在新创建的文件上运行搜寻器。

您可以使用熊猫轻松地将其转换。创建一个普通的python作业并读取excel文件。

import pandas as pd
df = pd.read_excel('yourFile.xlsx', 'SheetName', dtype=str, index_col=None)
df.to_csv('yourFile.csv', encoding='utf-8', index=False)

这会将您的文件转换为csv，然后在此文件上运行搜寻器，然后将加载您的表。

希望有帮助。

Answer 2

当你说“在运行抓取工具后，AWS Glue数据库的表格中没有任何内容”你是说在Glue UI中，你点击数据库，然后点击数据库名称，然后点击“xxx中的表格”，什么都没有出现？

您问题的第二部分似乎表明您正在寻找Glue将文件的实际数据行导入Glue数据库。那是对的吗？ Glue数据库不存储数据行，只存储有关文件的架构信息。您将需要使用Glue ETL作业或Athena或hive来实际将数据从数据文件移动到类似mySQL的内容。

Answer 3

您应该编写脚本（最有可能是使用胶水的python shell作业）将excel转换为csv，然后在其上运行搜寻器。

AWS GLUE数据导入问题

3 个答案: