我在.csv
中有几个C:\Users\USER_NAME\Documents
个文件,大小超过2 GB。我想使用Apache Spark在R中读取它们的数据。我正在使用带有Spark 2.0.1的Microsoft R Open 3.3.1。
我很难阅读使用.csv
包中定义的函数spark_read_csv(...)
的{{1}}文件。它要求以Sparklyr
开头的文件路径。我想知道从file://
开始我的案例的正确文件路径,并以file://
目录中的文件名结束。
答案 0 :(得分:1)
我有类似的问题。在我的情况下,在使用spark_read_csv调用它之前,必须将.csv文件放入hdfs文件系统。
我想你可能有类似的问题。
如果您的群集也在使用hdfs运行,则需要使用:
hdfs dfs -put
最佳, 菲利克斯