如何从Excel文件表中提取数据

时间:2018-10-10 09:07:37

标签: python excel parsing nlp extract

我正在尝试从Excel文件的某些表中提取/解析数据。但是代码无法正常工作。使用python和NLP。

在我的excel文件中有20张纸,但需要提取前两张纸的数据,但不能。 (是的,代码不起作用)

import xlrd
book = xlrd.open_workbook("your_input_file.xls")
sheet = book.sheet_by_index(0)
for row_index in xrange(1, sheet.nrows):
         print nltk.word_tokenize(sh.row_values(rownum))

1 个答案:

答案 0 :(得分:0)

使用openpyxl包,您可以像这样读取所有工作表中的数据框:

from openpyxl import Workbook
from openpyxl import load_workbook

workbook = load_workbook(filename = input_file_path)

dict_of_all_sheets = {}

for sheet_name in workbook.sheetnames:
    sheet = workbook[sheet_name]
    data_df = pd.DataFrame(sheet.values)
    name_of_sheet = sheet_name
    dict_of_all_sheets[name_of_sheet] = data_df

编辑:

如果您只想提取一张纸,则可以使用以下代码:

from openpyxl import load_workbook

workbook = load_workbook(filename = input_file_path)
sheet = workbook["your_sheet_name"]

您可以使用以下方法检查存在的工作表:

workbook.sheetnames