我想通过python代码阅读中文文件。但是我得到了一个混乱的输出。
以下是我的代码:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
with open('1.doc', 'r+') as f:
text = f.readlines()
print text
输出:
\x01\x00\x00\xfe\xff\xff\xffy\x01\x00\x00z\x01\x00\x00{\x01\x00\x00|\x01\x00\x00}\x01\x00\x00~\x01\x00\x00\x7f\x01\x00\x00\x80\x01\x00\x00\x81\x01\x00\x00\x82\x01\
我知道它必须有一些编码或解码问题。但我不知道如何解决这个问题。
答案 0 :(得分:0)
这与中国人无关。这是一个Word文档,它是一种二进制文件格式。你不能只通过readlines
阅读它:你需要从二进制文件格式转换它。像docx这样的图书馆会有所帮助。
答案 1 :(得分:0)
显示Unicode系统字符你必须配置我的系统。使用sys.getdefaultencoding()检查环境的配置,如果没有输出utf-8,则不会显示中文。如果您在Window上阅读了编码=' cp1252',但请先检查环境。