应用错误收集

时间：2017-01-16 12:59:52

标签： hdfs apache-samza

在Apache Samza中寻找从本地系统或HDFS读取文件的方法然后应用过滤器，聚合，条件，排序依据，分组数据。请提供一些帮助。

答案 0 :(得分：0)

您应该为要使用的每个数据源创建一个系统。例如，要从文件中读取，您应该使用FileReaderSystemFactory创建一个系统 - 对于HDFS，使用HdfsSystemFactory创建一个系统。然后，您可以使用常规流程回调或窗口来处理数据。

答案 1 :(得分：0)

您可以使用标准Kafka制作人为您的Samza Job提供信息。为了方便你。您可以使用Logstash，您需要在指定的位置创建Logstash脚本：

输入

我正在使用这种方法从本地文件

提供我的samza作业

另一种方法可能是使用Kafka Connect http://docs.confluent.io/2.0.0/connect/