我一直在寻找一种方法让spark_write_csv
只将一个文件上传到S3,因为我想将回归结果保存在S3上。我想知道options
是否有一些定义分区数的参数。我在文档中的任何地方都找不到它。或者是否有其他有效的方法将结果表上传到S3?
感谢任何帮助!
答案 0 :(得分:0)
public function login(Request $request, $company)
{
// you can copy some behaviour from
// https://github.com/laravel/framework/blob/5.4/src/Illuminate/Foundation/Auth/AuthenticatesUsers.php#L28
}
参数与options
上的options
调用相同(您可以查看DataFrameWriter.csv
documentation以获取特定于CSV源的完整选项列表)并且不能用于控制输出分区的数量。
虽然一般不推荐,但您可以使用Spark API合并数据并将其转换回DataFrameWriter
sparklyr
:
tbl
或者,在最近的版本中,df %>%
spark_dataframe() %>%
invoke("coalesce", 1L) %>%
invoke("createOrReplaceTempView", "_coalesced")
tbl(sc, "_coalesced") %>% spark_write_csv(...)
sparklyr::sdf_coalesce