标签: apache-spark ftp flume google-cloud-dataflow google-cloud-dataproc
我需要从ftp服务器(不是sftp)下载大约2百万个gunzip文件,处理它们并将结果(jpeg图像)存储在谷歌云存储上。 我考虑过旋转数据集群,然后从ftp获取文件并使用Spark进行处理。但不确定Spark将如何处理这些二进制文件。
有人可以建议一个更好的方法吗?
谢谢