在RStudio中使用sparklyr,我可以将LOCAL csv文件上传到spark集群

时间:2017-01-25 14:56:39

标签: r apache-spark rstudio sparkr

我对群集计算很新,所以不确定这是否可行。

我在Rstudio中成功创建spark_context(使用sparklyr)连接到我们的本地Spark群集。使用copy_to我可以将数据帧从R上传到Spark,但我尝试使用spark_read_csv将本地存储的CSV文件直接上传到Spark群集,而不是先将其导入R环境(&#39) ;一个5GB的大文件)。它不起作用(甚至在文件:///前面添加位置),似乎它只能上传已经存储在集群中的文件。

如何直接将本地文件上传到spark而不先将其加载到R?

任何提示赞赏。

2 个答案:

答案 0 :(得分:1)

你做不到。必须可以从群集中的每台计算机访问文件,作为本地副本或放在分布式文件系统/对象存储上。

答案 1 :(得分:0)

您可以使用spark_read_csv()方法将文件从本地上传到spark。请正确通过路径。

注意:无需先将数据加载到R环境中。