应用错误收集

我有一个文本文件，其中包含700万行文本〜，并以utf-16编码。

70357719 new.file

new.file: text/plain; charset=utf-16le

当我对utf-16使用pandas read_csv编码时，它仅导入一定百分比的行。

使用以下测试代码；

import pandas as pd 
data = pd.read_csv('new.file',names=['Text'],sep="\n")
print "Plain:",len(data)

data = pd.read_csv('new.file',names=['Text'],encoding="utf-16",sep="\n")
print "utf-16",len(data)

提供以下输出；

'Plain:', 215585254
'utf-16', 65446415

我正在使用python 2.7，并且已经测试了文件中的空行（没有空行）。

基本上，我对下一步的尝试感到迷惑，我需要导入此文件的 all 行。

熊猫read_csv不读取所有行吗？

0 个答案: