Question

http://scienceoss.com/read-excel-files-from-python/comment-page-1/#comment-1051

从上面的链接中，我使用此实用程序来读取XLS文件。如果XLS文件包含不同的语言字符（如中文或印地语），则无法正确输出。有解决方法吗？

谷歌搜索后，我发现了这个：

import xlrd

def upload_xls(dir,file,request):
    try:
        global msg
        global row_num
        row_num = []
        header_arr = []
        global file_path
        file_path = dir
        #reader = csv.reader(open(file), delimiter='#', quotechar='"')
        book = xlrd.open_workbook('dodgy.xls',encoding='cp1252')   ##To specify UTF8-encoding
        wb.sheet_names()
        sh =  wb.sheet_by_index(0)
        valid_xl_format = 0
        invalid_xl_format = 0
     except:
        print "Error

但是行book = open_workbook('dodgy.xls',encoding='cp1252')中存在错误：

TypeError: open_workbook() got an unexpected keyword argument 'encoding'

Answer 1

[dis] claimer：我是xlrd的作者。

如果xls包含不同的语言字符，如chine或印地文。它没有输出准确的措辞。有一个解决方法这个..

encoding_override参数（仅在文档中说明）仅用于OLD文件（由早于Excel 97的Excel（即1997年）生成），并且只有在内部记录的“代码页”丢失或不正确时才会使用。

注意：带有中文字符的旧文件：覆盖'cp1252'可以保证引发异常。

注意：带有“印地语”（梵文？）字符的旧文件：非常不可能......据我所知，从来没有任何官方支持的任何ISCII脚本的代码页，我也没有听说过非官方的。有关此主题和/或样本文件的任何信息都将非常受欢迎。

Excel 97及更高版本以（有效）UTF-16LE记录所有文本数据。如果文件是有效的Excel-97或更高版本的文件，则忽略encoding_override。

无论生成文件的Excel版本如何（如文档所述），xlrd都会返回unicode字符串。您的问题更可能与您显示或转换这些unicode字符串的方式有关。

如需进一步的帮助，请编辑您的问题以显示实际输出的示例以及“准确的措辞”。

Answer 2

根据xlrd module documentation，正确的参数是： encoding_override =“cp1252”而不是 encoding =“cp1252”。

从导入xlrd模块的方式来看，你应该将函数调用为xlrd.open_workbook，但是在示例代码中你直接使用函数，就好像你使用了“from xlrd import *”。

Answer 3

标准库中有一个csv模块，它在Python 3.1中处理unicode。

Python 2.x中的

警告： csv库不处理unicode。

Answer 4

有一个类似的问题。答案是输出导致问题，而不是XLRD。

回答有关如何将脚本设置为UTF-8 - ＆gt; https://stackoverflow.com/a/17628350/713

使用xlrd读取包含中文和/或印地文字符的Excel xls文件

4 个答案: