我正在为我的客户设置一个AWS GLUE作业。他们的文件是具有xls / xlsx扩展名的excel,并且具有多个工作表,因此他们不想在上载之前执行任何转换工作。如何直接从xls / xlsx文件中提取数据,或者GLUE可以将xls / xlsx文件转换为csv文件?
答案 0 :(得分:1)
xls / xlsx。最简单的方法是用胶水编写python shell作业,将excel转换为csv,然后在其上运行搜寻器。以下是python中的sample
import xlrd
import csv
def csv_from_excel():
wb = xlrd.open_workbook('your_workbook.xls')
sh = wb.sheet_by_name('Sheet1')
your_csv_file = open('your_csv_file.csv', 'wb')
wr = csv.writer(your_csv_file, quoting=csv.QUOTE_ALL)
for rownum in xrange(sh.nrows):
wr.writerow(sh.row_values(rownum))
your_csv_file.close()
答案 1 :(得分:0)
xls/xlsx
文件类型目前不可用。您需要编写转换器脚本才能将文件从xls/xlsx
转换为CSV。