http://scienceoss.com/read-excel-files-from-python/comment-page-1/#comment-1051
从上面的链接中,我使用此实用程序来读取XLS文件。如果XLS文件包含不同的语言字符(如中文或印地语),则无法正确输出。有解决方法吗?
谷歌搜索后,我发现了这个:
import xlrd
def upload_xls(dir,file,request):
try:
global msg
global row_num
row_num = []
header_arr = []
global file_path
file_path = dir
#reader = csv.reader(open(file), delimiter='#', quotechar='"')
book = xlrd.open_workbook('dodgy.xls',encoding='cp1252') ##To specify UTF8-encoding
wb.sheet_names()
sh = wb.sheet_by_index(0)
valid_xl_format = 0
invalid_xl_format = 0
except:
print "Error
但是行book = open_workbook('dodgy.xls',encoding='cp1252')
中存在错误:
TypeError: open_workbook() got an unexpected keyword argument 'encoding'
答案 0 :(得分:8)
[dis] claimer:我是xlrd的作者。
如果xls包含不同的语言字符,如chine或 印地文。它没有输出准确的措辞。有一个解决方法 这个..
encoding_override参数(仅在文档中说明)仅用于OLD文件(由早于Excel 97的Excel(即1997年)生成),并且只有在内部记录的“代码页”丢失或不正确时才会使用。
注意:带有中文字符的旧文件:覆盖'cp1252'可以保证引发异常。
注意:带有“印地语”(梵文?)字符的旧文件:非常不可能......据我所知,从来没有任何官方支持的任何ISCII脚本的代码页,我也没有听说过非官方的。有关此主题和/或样本文件的任何信息都将非常受欢迎。
Excel 97及更高版本以(有效)UTF-16LE记录所有文本数据。如果文件是有效的Excel-97或更高版本的文件,则忽略encoding_override。
无论生成文件的Excel版本如何(如文档所述),xlrd都会返回unicode字符串。您的问题更可能与您显示或转换这些unicode字符串的方式有关。
如需进一步的帮助,请编辑您的问题以显示实际输出的示例以及“准确的措辞”。
答案 1 :(得分:6)
根据xlrd module documentation,正确的参数是: encoding_override =“cp1252”而不是 encoding =“cp1252”。
从导入xlrd模块的方式来看,你应该将函数调用为xlrd.open_workbook,但是在示例代码中你直接使用函数,就好像你使用了“from xlrd import *”。
答案 2 :(得分:2)
标准库中有一个csv模块,它在Python 3.1中处理unicode。
Python 2.x中的警告: csv库不处理unicode。
答案 3 :(得分:0)
有一个类似的问题。答案是输出导致问题,而不是XLRD。
回答有关如何将脚本设置为UTF-8 - > https://stackoverflow.com/a/17628350/713