应用错误收集

如何使用spark同时处理多个文件

时间：2018-08-02 06:30:59

标签： apache-spark apache-kafka

我正在从Kafka主题接收文件名。当我收到文件名时。

我现在正在关注

在本地计算机上下载文件。
在该计算机上开始一个独立的Spark作业
我在一台计算机（64GB RAM）上运行10个此类作业

对于每个正在运行在不同计算机上的进程，每个主题都有多个Kafka主题。

现在我遇到了一些问题

当kafka主题为空时，分配给该主题的计算机将保持空闲状态，而其他计算机则有太多工作要做。
当我尝试创建所有计算机的Spark集群时，我无法执行此操作，因为我必须先下载文件，并且该文件不是所有计算机的本地文件，因为我没有将文件放入分布式文件中系统（Hadoop）。有解决这个问题的方法吗？

我是否可以创建一个更好的解决方案，以使我的计算机不处于空闲状态，并且可以共享来自多个Kafka主题的工作量？

0 个答案:

没有答案