使用Apache Spark处理来自网络的文件

时间:2017-05-30 10:47:38

标签: apache-spark

我有一些需要处理的远程数据文件,通常位于FTP或API(转储,而不是流)上。在浏览Spark文档时,我注意到对这些数据源的支持很少,特别是在身份验证时。

我认为这是由于可能短暂的网络链接的不可分发性(和/或速率限制),所以我想确认这一点,以便我可以按照Spark范例行事。

我的问题是:将所有文件下载到Spark支持的存储系统(使用我们掌握的任何工具)的操作方法是什么,然后才开始使用Spark?

1 个答案:

答案 0 :(得分:1)

是的,有两种常见的设计模式可以解决这个问题。
1.将转储从FTP / API复制到HDFS并运行spark
2.如果没有流支持,则将转储复制到S3而不是HDFS
在这两种情况下,您都可以根据事件启动Spark作业,您可以使用调度程序cron / airflow来处理此问题。