我有一个文本文件,其中包含700万行文本〜,并以utf-16编码。
70357719 new.file
new.file: text/plain; charset=utf-16le
当我对utf-16使用pandas read_csv编码时,它仅导入一定百分比的行。
使用以下测试代码;
import pandas as pd
data = pd.read_csv('new.file',names=['Text'],sep="\n")
print "Plain:",len(data)
data = pd.read_csv('new.file',names=['Text'],encoding="utf-16",sep="\n")
print "utf-16",len(data)
提供以下输出;
'Plain:', 215585254
'utf-16', 65446415
我正在使用python 2.7,并且已经测试了文件中的空行(没有空行)。
基本上,我对下一步的尝试感到迷惑,我需要导入此文件的 all 行。