我正在尝试使用xlrd从Excel文件中读取值。它在日期,数字以及迄今为止的文本方面都做得很好。我有一个列(类别),其中包含包含文本的单元格(单元格格式为文本)。当我打印出单元格值时,会显示一个浮点数而不是文本。我还打印出要检查的Cell对象的ctype,它显示为Number。我已经阅读了xlrd的文档和教程,但似乎无法找到原因。可能是因为我的excel文件被搞砸了?有正确方向的建议或指示吗?
import xlrd
import datetime
workbook = xlrd.open_workbook('training.xls')
courseSheet = workbook.sheet_by_index(0)
for row in range(courseSheet.nrows):
title = courseSheet.cell_value(row, 2)
date = courseSheet.cell_value(row, 4)
date = datetime.datetime(*xlrd.xldate_as_tuple(date, workbook.datemode))
dateTuple = date.timetuple()
category = courseSheet.cell_value(row, 7)
print category
答案 0 :(得分:4)
背景:对于每个单元格,xlrd报告存储在XLS文件中的内在值(如果有)。最初仅根据文件中的记录类型分配值类型(例如,NUMBER和RK记录包含浮点数)。它按照here描述的格式对格式进行分类,并使用该信息覆盖显示日期时间,日期或时间而非数字的值类型。 xlrd并不意味着能够根据归属于单元格的格式呈现单元格值。
有问题的细胞显然是作为数字输入的。如果他们已经应用了文本格式,那么这不会使他们成为“文本单元格”。
你说“”当我打印出单元格值时会显示一个浮点而不是文本“”“...请举例说明(a)创建文件时输入到单元格中的内容(b) )什么是“细胞被格式化为文本”的证据?(c)什么是repr(cell.value)(d)你希望展示的“文本”是什么?
您可能会发现以下代码非常有用:
import xlrd, sys
def dump_cell(sheet, rowx, colx):
c = sheet.cell(rowx, colx)
xf = sheet.book.xf_list[c.xf_index]
fmt_obj = sheet.book.format_map[xf.format_key]
print rowx, colx, repr(c.value), c.ctype, \
fmt_obj.type, fmt_obj.format_key, fmt_obj.format_str
book = xlrd.open_workbook(sys.argv[1], formatting_info=1)
sheet = book.sheet_by_index(0)
for rowx in xrange(sheet.nrows):
for colx in xrange(sheet.ncols):
dump_cell(sheet, rowx, colx)
答案 1 :(得分:0)
我遇到与OP相同的问题,我想我得出结论,有些情况下python(xlrd)方面没有解决方案。您可以根据数据最初输入Excel工作表的方式进行操作。具体来说,如果数据已输入已应用了正确“文本”格式的单元格,或者数据已输入到具有默认“常规”格式的单元格中,则单元格的格式将更改为“输入数据后的文字。
如果您将数据输入到预先格式化的单元格中,您的数字数据将被标记为excel警告标记,表示您在为文本格式化的单元格中有数字数据。在这种情况下,xlrd将按预期处理数据 - 返回excel工作表中显示的字符串。 (例如,excel中的单元格内容读为“1”,xlrd将返回“1”作为单元格值)
但是,如果在输入数字数据后更改单元格的格式,则最终会出现excel中的数据显示为“1”的情况,但xlrd将返回单元格值“1.0” ”。如果检查此单元格的xlrd cell.ctype,即使格式已更改为Excel中的文本,您仍会看到该单元格仍被视为数字。
可能的解决方案可能是将excel字符串数据用引号括起来。这将禁止excel从一开始就将数据视为数值。