如何使用spark同时处理多个文件

时间:2018-08-02 06:30:59

标签: apache-spark apache-kafka

我正在从Kafka主题接收文件名。当我收到文件名时。

我现在正在关注

  1. 在本地计算机上下载文件。
  2. 在该计算机上开始一个独立的Spark作业
  3. 我在一台计算机(64GB RAM)上运行10个此类作业

对于每个正在运行在不同计算机上的进程,每个主题都有多个Kafka主题。

现在我遇到了一些问题

  1. 当kafka主题为空时,分配给该主题的计算机将保持空闲状态,而其他计算机则有太多工作要做。

  2. 当我尝试创建所有计算机的Spark集群时,我无法执行此操作,因为我必须先下载文件,并且该文件不是所有计算机的本地文件,因为我没有将文件放入分布式文件中系统(Hadoop)。有解决这个问题的方法吗?

我是否可以创建一个更好的解决方案,以使我的计算机不处于空闲状态,并且可以共享来自多个Kafka主题的工作量?

0 个答案:

没有答案