有一个excel文件testFile.xlsx,如下所示:
ID ENTITY STATE
1 Montgomery County Muni Utility Dist No.39 TX
2 State of Washington WA
3 Waterloo CUSD 5 IL
4 Staunton CUSD 6 IL
5 Berea City SD OH
6 City of Coshocton OH
现在,我想将数据导入AWS GLUE数据库,已创建AWS GLUE中的爬网程序,运行爬网程序后,AWS GLUE数据库中的表中没有任何内容。我想这应该是AWS GLUE中的分类器问题,但是不知道如何创建一个合适的分类器来成功地将excel文件中的数据导入AWS GLUE数据库。感谢您的任何答案或建议。
答案 0 :(得分:1)
胶搜寻器不支持MS Excel文件。 如果要为excel文件创建表,则必须先将其从excel转换为csv / json / parquet,然后在新创建的文件上运行搜寻器。
您可以使用熊猫轻松地将其转换。 创建一个普通的python作业并读取excel文件。
import pandas as pd
df = pd.read_excel('yourFile.xlsx', 'SheetName', dtype=str, index_col=None)
df.to_csv('yourFile.csv', encoding='utf-8', index=False)
这会将您的文件转换为csv,然后在此文件上运行搜寻器,然后将加载您的表。
希望有帮助。
答案 1 :(得分:0)
当你说“在运行抓取工具后,AWS Glue数据库的表格中没有任何内容”你是说在Glue UI中,你点击数据库,然后点击数据库名称,然后点击“xxx中的表格”,什么都没有出现?
您问题的第二部分似乎表明您正在寻找Glue将文件的实际数据行导入Glue数据库。那是对的吗? Glue数据库不存储数据行,只存储有关文件的架构信息。您将需要使用Glue ETL作业或Athena或hive来实际将数据从数据文件移动到类似mySQL的内容。
答案 2 :(得分:0)
您应该编写脚本(最有可能是使用胶水的python shell作业)将excel转换为csv,然后在其上运行搜寻器。