我有一个包含285000个观察结果的.csv文件。一旦我尝试导入数据集,这是警告,它显示166000个观察结果。
Joint <- read.csv("joint.csv", header = TRUE, sep = ",")
警告讯息: 在scan(file = file,what = what,sep = sep,quote = quote,dec = dec,: 引用字符串中的EOF
当我用引号编码时,如下:
Joint2 <- read.csv("joint.csv", header = TRUE, sep = ",", quote="", fill= TRUE)
read.table出错(file = file,header = header,sep = sep,quote = quote,: 列数多于列名
当我这样编码时,它显示了483000个观察结果:
Joint <- read.table("joint.csv", header = TRUE, sep = ",", quote="", fill= TRUE)
我该怎么做才能正确阅读文件?
答案 0 :(得分:0)
我认为问题与文件编码有关。标题中有很多特殊字符。
如果您知道文件的编码方式,可以使用fileEncoding
的{{1}}参数进行指定。
否则,您可以尝试使用data.table中的read.csv
。尽管存在编码问题,它仍能读取文件。读取这么大的数据文件也会快得多。