r - 使用R中的Sparklyr读取.csv文件 - Thinbug

使用R中的Sparklyr读取.csv文件

时间：2016-11-25 11:24:55

标签： r csv apache-spark sparklyr

我在.csv中有几个C:\Users\USER_NAME\Documents个文件，大小超过2 GB。我想使用Apache Spark在R中读取它们的数据。我正在使用带有Spark 2.0.1的Microsoft R Open 3.3.1。

我很难阅读使用.csv包中定义的函数spark_read_csv(...)的{{1}}文件。它要求以Sparklyr开头的文件路径。我想知道从file://开始我的案例的正确文件路径，并以file://目录中的文件名结束。

1 个答案:

答案 0 :(得分：1)

我有类似的问题。在我的情况下，在使用spark_read_csv调用它之前，必须将.csv文件放入hdfs文件系统。

我想你可能有类似的问题。

如果您的群集也在使用hdfs运行，则需要使用：

hdfs dfs -put

最佳，菲利克斯