通过熊猫读取具有不同列的大型tsv文件

时间:2020-02-18 07:05:02

标签: python pandas csv bigdata data-analysis

我有一个大约1.4亿行的大型tsv文件。但是,当我尝试通过不同的代码读取文件时,会遇到不同的错误。

  • pd.read_csv('abc.tsv',delimiter='\t',encoding='utf-8') 它只读 大约35988840行,没有任何错误或警告
  • np.genfromtxt("abc.tsv", names=True, delimiter="\t", invalid_raise = False)-
    它读取35988840行,并显示以下消息。

    主要:1:转换警告:检测到一些错误! Line#35988840(得到3列而不是8列)

  • np.genfromtxt("abc.tsv", names=True, delimiter="\t")

  • np.genfromtxt("abc.tsv", names=True, delimiter="\t", skip_header=1)

  • np.genfromtxt("abc.tsv", names=True, delimiter="\t", invalid_raise = False)

关于列数不同的最后三个错误相同。 我们如何去做?请帮忙

0 个答案:

没有答案