spark_write_csv dplyr函数的options参数是什么?

时间:2017-05-19 11:10:00

标签: r apache-spark amazon-s3 dplyr sparklyr

我一直在寻找一种方法让spark_write_csv只将一个文件上传到S3,因为我想将回归结果保存在S3上。我想知道options是否有一些定义分区数的参数。我在文档中的任何地方都找不到它。或者是否有其他有效的方法将结果表上传到S3?

感谢任何帮助!

1 个答案:

答案 0 :(得分:0)

public function login(Request $request, $company) { // you can copy some behaviour from // https://github.com/laravel/framework/blob/5.4/src/Illuminate/Foundation/Auth/AuthenticatesUsers.php#L28 } 参数与options上的options调用相同(您可以查看DataFrameWriter.csv documentation以获取特定于CSV源的完整选项列表)并且不能用于控制输出分区的数量。

虽然一般不推荐,但您可以使用Spark API合并数据并将其转换回DataFrameWriter sparklyr

tbl

或者,在最近的版本中,df %>% spark_dataframe() %>% invoke("coalesce", 1L) %>% invoke("createOrReplaceTempView", "_coalesced") tbl(sc, "_coalesced") %>% spark_write_csv(...)

sparklyr::sdf_coalesce