这是我的用例:我的工作是清理经常从网页中删除的CSV文件(大多数是英文但有些德国人和其他奇怪的非unicode角色潜入其中)。 Python 3默认为“utf-8”,通常为
import csv
#open file
with open('input.csv','r',encoding = 'utf-8')
reader = csv.reader(f)
即使每个地方都有try / catch块,也会失败UnicodeEncodeError
如果我甚至无法打开它,我无法弄清楚如何清理输入。我的最终目标是将每一行读入我称之为文本的列表中。
我没有想到我甚至尝试了以下内容:
for encoding in ('utf-8','latin-1',etc, etc):
try:
//open the file
我不能对编码做任何假设,因为它们可能写在世界其他地方的unix机器上,而且我在windows机器上。输入只是简单的字符串,否则示例
测试用例:“这是测试用例的一个示例,测试可能会在文本处理器中打开时换行到新行”
答案 0 :(得分:3)
也许尝试完全阅读内容,然后使用bytes.decode(),就像你提到的那样:
sudo pecl install raphf-1.1.2