在阅读制表符分隔的文本文件时,Pandas似乎无声地失败

时间:2017-11-24 21:35:25

标签: python pandas

我有一个带有127294行(包括标题)的制表符分隔文本文件,但是当我尝试将其读入pandas数据帧时,结果只有126674行(比预期的行少619行)。

没有错误消息/异常或警告。列中存在正确的列数。

我正在阅读:

df = pandas.read_csv("temp", sep="\t")

1 个答案:

答案 0 :(得分:1)

我发现文件中有2个双引号(")字符,分隔619行。 Pandas默认将引用视为包含一个条目,因此它包含该条目中的所有选项卡和换行符,直到它到达下一个引用。

我能够按照我想要的那样读取文件(正确的行数):

df = pandas.read_csv("temp", sep="\t", quoting=csv.QUOTE_NONE)

或者我可以编辑文件以使用单引号括起该条目。如果允许在文件中引用很重要。