我有一个带有127294行(包括标题)的制表符分隔文本文件,但是当我尝试将其读入pandas数据帧时,结果只有126674行(比预期的行少619行)。
没有错误消息/异常或警告。列中存在正确的列数。
我正在阅读:
df = pandas.read_csv("temp", sep="\t")
答案 0 :(得分:1)
我发现文件中有2个双引号(")字符,分隔619行。 Pandas默认将引用视为包含一个条目,因此它包含该条目中的所有选项卡和换行符,直到它到达下一个引用。
我能够按照我想要的那样读取文件(正确的行数):
df = pandas.read_csv("temp", sep="\t", quoting=csv.QUOTE_NONE)
或者我可以编辑文件以使用单引号括起该条目。如果允许在文件中引用很重要。