应用错误收集

在RStudio中使用sparklyr，我可以将LOCAL csv文件上传到spark集群

时间：2017-01-25 14:56:39

标签： r apache-spark rstudio sparkr

我对群集计算很新，所以不确定这是否可行。

我在Rstudio中成功创建spark_context（使用sparklyr）连接到我们的本地Spark群集。使用copy_to我可以将数据帧从R上传到Spark，但我尝试使用spark_read_csv将本地存储的CSV文件直接上传到Spark群集，而不是先将其导入R环境（＆＃39） ;一个5GB的大文件）。它不起作用（甚至在文件：///前面添加位置），似乎它只能上传已经存储在集群中的文件。

如何直接将本地文件上传到spark而不先将其加载到R？

任何提示赞赏。

2 个答案:

答案 0 :(得分：1)

你做不到。必须可以从群集中的每台计算机访问文件，作为本地副本或放在分布式文件系统/对象存储上。

答案 1 :(得分：0)

您可以使用spark_read_csv()方法将文件从本地上传到spark。请正确通过路径。

注意：无需先将数据加载到R环境中。