我有一个500MB +的文件是通过将大型Excel电子表格保存为unicode生成的。 我正在运行Windows 7。
我需要用python pandas打开文件。到目前为止,我曾经使用notepad ++将文件从ANSI转换为UTF-8,但文件现在太大了,然后用notepad ++打开它。
我有希伯来语,法语,瑞典语,挪威语,丹麦语特殊字符。
read_excel
太慢了*我没有看到一些输出就让它好几分钟。 iconv
:显然我无法正确编码,当我tried时,我只是得到一个制表符分隔的空值列表:
iconv -f" CP858" -t" UTF-8" file1.txt> FILE2.TXT
iconv -f" windows-1252" -t" UTF-8" file1.txt> FILE2.TXT
修改
iconv -f "UTF-16le" -t "UTF-8" file1.txt > file2.txt
会导致一种非常奇怪的行为:切断行之间的一行。一切看起来都不错,但实际上只转换了80K行。
修改2
带有read_csv
的 .. encoding='utf-16le'
正确读取文件。但是,我仍然不明白为什么会iconv
搞砸它。
答案 0 :(得分:0)
read_csv
的 encoding='utf-16le'
正确读取文件。但是,我仍然不明白为什么会iconv
搞砸它。