如何从本地文件系统和hdfs系统读取Apache Samza中的文件

时间:2017-01-16 12:59:52

标签: hdfs apache-samza

在Apache Samza中寻找从本地系统或HDFS读取文件的方法 然后应用过滤器,聚合,条件,排序依据,分组数据。 请提供一些帮助。

2 个答案:

答案 0 :(得分:0)

您应该为要使用的每个数据源创建一个系统。例如,要从文件中读取,您应该使用FileReaderSystemFactory创建一个系统 - 对于HDFS,使用HdfsSystemFactory创建一个系统。然后,您可以使用常规流程回调或窗口来处理数据。

答案 1 :(得分:0)

您可以使用标准Kafka制作人为您的Samza Job提供信息。为了方便你。您可以使用Logstash,您需要在指定的位置创建Logstash脚本:

  • 输入本地文件或hdfs
  • 过滤器(可选),您可以在此处进行基本过滤,聚合等。
  • 包含您要提供的特定主题的kafka输出

输入

我正在使用这种方法从本地文件

提供我的samza作业

另一种方法可能是使用Kafka Connect http://docs.confluent.io/2.0.0/connect/