如何在python中读取带有特殊字符的文件

时间:2013-08-02 10:19:46

标签: python file apache-tika

我使用Apache Tika抓取了pdf,html,doc文件并将结构化文本存储到文本文件中。这些文本文件包含一些不寻常的特殊字符,因为这些特殊字符我无法读取这些文本文件。我有以下代码用于阅读文件的代码段

fo = codecs.open('/var/www/testfiles/sample.txt','r','utf-8').read()

但是,我收到了以下错误

UnicodeDecodeError: 'utf8' codec can't decode byte 0xb7 in position 1291: invalid start byte

请建议我如何阅读我的文本文件。 感谢

1 个答案:

答案 0 :(得分:0)

您需要将'errors'关键字参数设置为默认严格以外的值。您可以找到一系列可能性(适用于Python 3.3)here。该列表在“codecs.register()”文档中列举。

我会先从'替换'选项开始,这样你就可以看到你正在处理的内容。