我的应用程序配置为从配置的Kafka读取主题,然后将转换后的结果写入Hadoop HDFS。为此,需要在Yarn集群节点上启动它。
为了做到这一点,我们想使用Spring DataFlow。但是,由于此应用程序不需要来自另一个流的任何输入(它已经知道从何处提取其源),并且不输出任何内容,如何从中创建有效的DataFlow流? 换句话说,这将是一个仅由一个应用程序组成的流,应该在Yarn节点上无限期运行。
答案 0 :(得分:1)
在这种情况下,您需要一个连接到Kafka中指定目标的流定义并写入HDFS。
例如,流看起来像这样:
stream create a1 --definition ":myKafkaTopic > hdfs"
有关详细信息,请参阅here。