Question

我有一个包含285000个观察结果的.csv文件。一旦我尝试导入数据集，这是警告，它显示166000个观察结果。

Joint <- read.csv("joint.csv", header = TRUE, sep = ",")

警告讯息：在scan（file = file，what = what，sep = sep，quote = quote，dec = dec，：引用字符串中的EOF

当我用引号编码时，如下：

Joint2 <- read.csv("joint.csv", header = TRUE, sep = ",", quote="", fill= TRUE)

read.table出错（file = file，header = header，sep = sep，quote = quote，：列数多于列名

当我这样编码时，它显示了483000个观察结果：

Joint <- read.table("joint.csv", header = TRUE, sep = ",", quote="", fill= TRUE)

我该怎么做才能正确阅读文件？

Answer 1

我认为问题与文件编码有关。标题中有很多特殊字符。如果您知道文件的编码方式，可以使用fileEncoding的{{1}}参数进行指定。

否则，您可以尝试使用data.table中的read.csv。尽管存在编码问题，它仍能读取文件。读取这么大的数据文件也会快得多。