在python中解析带有英语和印地语字符的csv文件

时间:2013-07-15 18:20:13

标签: python csv python-2.7 utf-16

我正在尝试解析一个包含英语和印地语字符的csv文件,我正在使用utf-16。它工作正常,但一旦它击中印地文charatcer它失败了。我在这里不知所措。

继承代码 - >

import csv
import codecs

csvReader = csv.reader(codecs.open('/home/kuberkaul/Downloads/csv.csv', 'rb', 'utf-16'))
for row in csvReader:
        print row

我得到的错误是Traceback(最近一次调用最后一次):

>  File "csvreader.py", line 8, in <module>
>     for row in csvReader: UnicodeEncodeError: 'ascii' codec can't encode characters in position 11-18: ordinal not in range(128)
> kuberkaul@ubuntu:~/Desktop$

我该如何解决这个问题?

编辑1:

我尝试了解决方案并使用了unicdoe csv阅读器,现在它给出了错误:

  
    

UnicodeDecodeError:'ascii'编解码器无法将字节0xff解码到位     0:序数不在范围内(128)

  

代码是:

import csv
import codecs, io


def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs):
    # csv.py doesn't do Unicode; encode temporarily as UTF-8:
    csv_reader = csv.reader(utf_8_encoder(unicode_csv_data),
                            dialect=dialect, **kwargs)
    for row in csv_reader:
        # decode UTF-8 back to Unicode, cell by cell:
        yield [unicode(cell, 'utf-8') for cell in row]

def utf_8_encoder(unicode_csv_data):
    for line in unicode_csv_data:
        yield line.encode('utf-8')

filename = '/home/kuberkaul/Downloads/csv.csv'
reader = unicode_csv_reader(codecs.open(filename))
  print reader
for rows in reader:
  print rows

1 个答案:

答案 0 :(得分:6)

正如the documentation所说,在靠近顶部的大笔记中:

  

此版本的csv模块不支持Unicode输入。此外,目前有一些关于ASCII NUL字符的问题。因此,所有输入应为UTF-8或可打印的ASCII以确保安全;请参阅示例部分中的示例。

如果您点击该示例的链接,它会显示解决方案:将每行编码为UTF-8,然后再将其传递给csv。他们甚至为您提供了一个很好的包装器,因此您只需将csv.reader替换为unicode_csv_reader,其余代码就会保持不变:

csvReader = unicode_csv_reader(codecs.open('/home/kuberkaul/Downloads/csv.csv', 'rb', 'utf-16'))
for row in csvReader:
    print row

当然print不会非常有用,因为列表的str使用每个元素的repr,所以你会得到像[u'foo', u'bar', u'\u0910\u0911'] ...

您可以通常的方式解决这个问题 - 例如,print u', '.join(row)如果你还记得u就可以了,如果Python能够猜测你终端的编码(它可以在Mac和现代linux上使用) ,但可能无法在Windows和旧的Linux上运行,在这种情况下,您需要在每列上映射明确的encode