使用R中的Sparklyr读取.csv文件

时间:2016-11-25 11:24:55

标签: r csv apache-spark sparklyr

我在.csv中有几个C:\Users\USER_NAME\Documents个文件,大小超过2 GB。我想使用Apache Spark在R中读取它们的数据。我正在使用带有Spark 2.0.1的Microsoft R Open 3.3.1。

我很难阅读使用.csv包中定义的函数spark_read_csv(...)的{​​{1}}文件。它要求以Sparklyr开头的文件路径。我想知道从file://开始我的案例的正确文件路径,并以file://目录中的文件名结束。

1 个答案:

答案 0 :(得分:1)

我有类似的问题。在我的情况下,在使用spark_read_csv调用它之前,必须将.csv文件放入hdfs文件系统。

我想你可能有类似的问题。

如果您的群集也在使用hdfs运行,则需要使用:

hdfs dfs -put

最佳, 菲利克斯