Question

这是我的用例：我的工作是清理经常从网页中删除的CSV文件（大多数是英文但有些德国人和其他奇怪的非unicode角色潜入其中）。 Python 3默认为“utf-8”，通常为

import csv

#open file 
with open('input.csv','r',encoding = 'utf-8') 
    reader = csv.reader(f)

即使每个地方都有try / catch块，

也会失败UnicodeEncodeError

如果我甚至无法打开它，我无法弄清楚如何清理输入。我的最终目标是将每一行读入我称之为文本的列表中。

我没有想到我甚至尝试了以下内容：

 for encoding in ('utf-8','latin-1',etc, etc):
     try:
         //open the file

我不能对编码做任何假设，因为它们可能写在世界其他地方的unix机器上，而且我在windows机器上。输入只是简单的字符串，否则示例

测试用例：“这是测试用例的一个示例，测试可能会在文本处理器中打开时换行到新行”

Answer 1

也许尝试完全阅读内容，然后使用bytes.decode（），就像你提到的那样：

sudo pecl install raphf-1.1.2