我正在从Kafka主题接收文件名。当我收到文件名时。
我现在正在关注
对于每个正在运行在不同计算机上的进程,每个主题都有多个Kafka主题。
当kafka主题为空时,分配给该主题的计算机将保持空闲状态,而其他计算机则有太多工作要做。
当我尝试创建所有计算机的Spark集群时,我无法执行此操作,因为我必须先下载文件,并且该文件不是所有计算机的本地文件,因为我没有将文件放入分布式文件中系统(Hadoop)。有解决这个问题的方法吗?
我是否可以创建一个更好的解决方案,以使我的计算机不处于空闲状态,并且可以共享来自多个Kafka主题的工作量?