在pandas中读取包含特殊字符的大型excel文件

时间:2015-01-15 14:13:49

标签: windows excel encoding utf-8 pandas

我有一个500MB +的文件是通过将大型Excel电子表格保存为unicode生成的。 我正在运行Windows 7。

我需要用python pandas打开文件。到目前为止,我曾经使用notepad ++将文件从ANSI转换为UTF-8,但文件现在太大了,然后用notepad ++打开它。

我有希伯来语,法语,瑞典语,挪威语,丹麦语特殊字符。

  • Panda的read_excel太慢了*我没有看到一些输出就让它好几分钟。
  • iconv:显然我无法正确编码,当我tried时,我只是得到一个制表符分隔的空值列表:

    iconv -f" CP858" -t" UTF-8" file1.txt> FILE2.TXT

    iconv -f" windows-1252" -t" UTF-8" file1.txt> FILE2.TXT

修改

iconv -f "UTF-16le" -t "UTF-8" file1.txt > file2.txt会导致一种非常奇怪的行为:切断行之间的一行。一切看起来都不错,但实际上只转换了80K行。

修改2

带有read_csv

.. encoding='utf-16le'正确读取文件。但是,我仍然不明白为什么会iconv搞砸它。

1 个答案:

答案 0 :(得分:0)

read_csv

encoding='utf-16le'正确读取文件。但是,我仍然不明白为什么会iconv搞砸它。