我对群集计算很新,所以不确定这是否可行。
我在Rstudio中成功创建spark_context
(使用sparklyr)连接到我们的本地Spark群集。使用copy_to
我可以将数据帧从R上传到Spark,但我尝试使用spark_read_csv
将本地存储的CSV文件直接上传到Spark群集,而不是先将其导入R环境(&#39) ;一个5GB的大文件)。它不起作用(甚至在文件:///前面添加位置),似乎它只能上传已经存储在集群中的文件。
如何直接将本地文件上传到spark而不先将其加载到R?
任何提示赞赏。
答案 0 :(得分:1)
你做不到。必须可以从群集中的每台计算机访问文件,作为本地副本或放在分布式文件系统/对象存储上。
答案 1 :(得分:0)
您可以使用spark_read_csv()
方法将文件从本地上传到spark。请正确通过路径。
注意:无需先将数据加载到R环境中。