python unicode-当我想读取文件中的内容时

时间:2015-10-06 09:32:07

标签: python unicode

我想通过python代码阅读中文文件。但是我得到了一个混乱的输出。

以下是我的代码:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

with open('1.doc', 'r+') as f:
    text = f.readlines()
    print text

输出:

\x01\x00\x00\xfe\xff\xff\xffy\x01\x00\x00z\x01\x00\x00{\x01\x00\x00|\x01\x00\x00}\x01\x00\x00~\x01\x00\x00\x7f\x01\x00\x00\x80\x01\x00\x00\x81\x01\x00\x00\x82\x01\

我知道它必须有一些编码或解码问题。但我不知道如何解决这个问题。

2 个答案:

答案 0 :(得分:0)

这与中国人无关。这是一个Word文档,它是一种二进制文件格式。你不能只通过readlines阅读它:你需要从二进制文件格式转换它。像docx这样的图书馆会有所帮助。

答案 1 :(得分:0)

显示Unicode系统字符你必须配置我的系统。使用sys.getdefaultencoding()检查环境的配置,如果没有输出utf-8,则不会显示中文。如果您在Window上阅读了编码=' cp1252',但请先检查环境。