如何在读取包含多种语言的文件时处理错误

时间:2018-06-04 07:53:50

标签: python nlp

data trying to read 我已经尝试了各种方法来获取不同类型的错误。

import codecs
f = codecs.open('sampledata.xlsx', encoding='utf-8')
for line in f:
  print (repr(line))

我尝试的另一种方式是

f = open(fname, encoding="ascii", errors="surrogateescape")

仍然没有运气。有什么帮助?

1 个答案:

答案 0 :(得分:0)

较新版本的Pandas支持xlxs。

file_name =  # path to file + file name
sheet =  # sheet name or sheet number or list of sheet numbers and names

import pandas as pd
df = pd.read_excel(io=file_name, sheet_name=sheet)
print(df.head(5))  # print first 5 rows of the dataframe

效果很好,特别是如果你正在使用多张纸。

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html