应用错误收集

如何有效地处理从ftp提供的二进制文件并将结果存储在GCS上

时间：2017-03-27 20:43:16

标签： apache-spark ftp flume google-cloud-dataflow google-cloud-dataproc

我需要从ftp服务器（不是sftp）下载大约2百万个gunzip文件，处理它们并将结果（jpeg图像）存储在谷歌云存储上。我考虑过旋转数据集群，然后从ftp获取文件并使用Spark进行处理。但不确定Spark将如何处理这些二进制文件。

有人可以建议一个更好的方法吗？

谢谢

0 个答案:

没有答案