Question

在R中，我创建了两个数据集，我已将其保存为csv文件

liste <-write.csv(liste, file="/home/.../liste.csv", row.names=FALSE)
    data <- write.csv(data, file="/home/.../data.csv", row.names=FALSE)

我现在想在SparkR中打开这些csv文件。所以我输入

liste <- read.df(sqlContext, "/home/.../liste.csv", "com.databricks.spark.csv", header="true", delimiter= "\t")

data <- read.df(sqlContext, "/home/.../data.csv", "com.databricks.spark.csv", header="true", delimiter= "\t")

事实证明，一个数据集'liste'在SparkR中成功加载，但是，由于某些奇怪的原因，无法加载'数据'。

'liste'只是R中数字的向量，而'data'是我在R中加载的data.frame并删除了data.frame的某些部分。 SparkR给了我这个错误信息：

错误：returnStatus == 0不是TRUE

Answer 1

Liste是一个可以用write.csv写的本地列表，data是一个SparkR DataFrame，它不能用write.csv写：它只写它的指针，而不是DataFrame。这就是为什么它只有33 kb

在sparkR中加载csv文件

1 个答案: