AWS GLUE导入xls / xlsx文件

时间:2019-08-12 06:35:11

标签: amazon-web-services aws-glue

我正在为我的客户设置一个AWS GLUE作业。他们的文件是具有xls / xlsx扩展名的excel,并且具有多个工作表,因此他们不想在上载之前执行任何转换工作。如何直接从xls / xlsx文件中提取数据,或者GLUE可以将xls / xlsx文件转换为csv文件?

2 个答案:

答案 0 :(得分:1)

到目前为止,GLUE不支持

xls / xlsx。最简单的方法是用胶水编写python shell作业,将excel转换为csv,然后在其上运行搜寻器。以下是python中的sample

 import xlrd
 import csv

 def csv_from_excel():

    wb = xlrd.open_workbook('your_workbook.xls')
    sh = wb.sheet_by_name('Sheet1')
    your_csv_file = open('your_csv_file.csv', 'wb')
    wr = csv.writer(your_csv_file, quoting=csv.QUOTE_ALL)

    for rownum in xrange(sh.nrows):
        wr.writerow(sh.row_values(rownum))

    your_csv_file.close()

答案 1 :(得分:0)

xls/xlsx文件类型目前不可用。您需要编写转换器脚本才能将文件从xls/xlsx转换为CSV。

Classifier API