Question

我想通过python代码阅读中文文件。但是我得到了一个混乱的输出。

以下是我的代码：

#!/usr/bin/env python
# -*- coding: utf-8 -*-

with open('1.doc', 'r+') as f:
    text = f.readlines()
    print text

输出：

\x01\x00\x00\xfe\xff\xff\xffy\x01\x00\x00z\x01\x00\x00{\x01\x00\x00|\x01\x00\x00}\x01\x00\x00~\x01\x00\x00\x7f\x01\x00\x00\x80\x01\x00\x00\x81\x01\x00\x00\x82\x01\

我知道它必须有一些编码或解码问题。但我不知道如何解决这个问题。

Answer 1

这与中国人无关。这是一个Word文档，它是一种二进制文件格式。你不能只通过readlines阅读它：你需要从二进制文件格式转换它。像docx这样的图书馆会有所帮助。

Answer 2

显示Unicode系统字符你必须配置我的系统。使用sys.getdefaultencoding（）检查环境的配置，如果没有输出utf-8，则不会显示中文。如果您在Window上阅读了编码=＆＃39; cp1252＆＃39;，但请先检查环境。

python unicode-当我想读取文件中的内容时

2 个答案: