标签: apache-spark hadoop apache-kafka
我有一个Spark程序,该程序从Kafka Topics和HDFS文件中获取输入。 此信息是静态信息,提供系统可以处理的几个主题和文件。
在运行时,数据可能来自一些主题和HDFS文件。其余主题和HDFS文件数据可能不会在一个Fiven窗口中出现。
我想首先过滤全局配置,以了解存在哪些kafka主题和文件,并且只处理它们。
如何在Spark应用程序中实现这种过滤。