在Apache Samza中寻找从本地系统或HDFS读取文件的方法 然后应用过滤器,聚合,条件,排序依据,分组数据。 请提供一些帮助。
答案 0 :(得分:0)
您应该为要使用的每个数据源创建一个系统。例如,要从文件中读取,您应该使用FileReaderSystemFactory创建一个系统 - 对于HDFS,使用HdfsSystemFactory创建一个系统。然后,您可以使用常规流程回调或窗口来处理数据。
答案 1 :(得分:0)
您可以使用标准Kafka制作人为您的Samza Job提供信息。为了方便你。您可以使用Logstash,您需要在指定的位置创建Logstash脚本:
输入
我正在使用这种方法从本地文件
提供我的samza作业另一种方法可能是使用Kafka Connect http://docs.confluent.io/2.0.0/connect/