工业强度csv阅读器(python)

时间:2016-05-11 03:58:08

标签: python csv unicode

这是我的用例:我的工作是清理经常从网页中删除的CSV文件(大多数是英文但有些德国人和其他奇怪的非unicode角色潜入其中)。 Python 3默认为“utf-8”,通常为

import csv

#open file 
with open('input.csv','r',encoding = 'utf-8') 
    reader = csv.reader(f)
即使每个地方都有try / catch块,

也会失败UnicodeEncodeError

如果我甚至无法打开它,我无法弄清楚如何清理输入。我的最终目标是将每一行读入我称之为文本的列表中。

我没有想到我甚至尝试了以下内容:

 for encoding in ('utf-8','latin-1',etc, etc):
     try:
         //open the file 

我不能对编码做任何假设,因为它们可能写在世界其他地方的unix机器上,而且我在windows机器上。输入只是简单的字符串,否则示例

测试用例:“这是测试用例的一个示例,测试可能会在文本处理器中打开时换行到新行”

1 个答案:

答案 0 :(得分:3)

也许尝试完全阅读内容,然后使用bytes.decode(),就像你提到的那样:

sudo pecl install raphf-1.1.2