如何有效地处理从ftp提供的二进制文件并将结果存储在GCS上

时间:2017-03-27 20:43:16

标签: apache-spark ftp flume google-cloud-dataflow google-cloud-dataproc

我需要从ftp服务器(不是sftp)下载大约2百万个gunzip文件,处理它们并将结果(jpeg图像)存储在谷歌云存储上。 我考虑过旋转数据集群,然后从ftp获取文件并使用Spark进行处理。但不确定Spark将如何处理这些二进制文件。

有人可以建议一个更好的方法吗?

谢谢

0 个答案:

没有答案