所以我有这个由19,150,868行组成的tsv数据集;我确定数字是正确的,因为A)它是由文件的所有者指定的,B)我在UNIX中使用wc -l
进行了检查。
然而,当我跑步时:
MyData = read.table("dataset.tsv", header=FALSE, sep="\t",
col.names = c_names, colClass = "character", comment.char = "",
quote="", nrows = 19150868)
只导入了第一个835873。不会抛出任何错误,并且该过程仅需要20.33秒。