如何管理水槽代理之间的并发性。

时间:2017-06-15 09:05:40

标签: java hadoop flume flume-ng flume-twitter

我正在研究大数据项目。我们正在使用flume将文件从sftp下载到HDFS。 然后,我们配置了3个代理。他们从同一来源读取。因此,我们将3个重复文件导入HDFS,这并不好。然而,我们必须只有一个文件。但是,我们需要保持已处理文件的可跟踪性,并管理代理之间的并发性。例如,我们有3个主要代理A1,A2和A3。如果代理A2处理或处理文件xxx.csv。其他人不会处理它,并会寻找未处理的文件。因此,每个文件只能由一个代理处理。

有人在处理类似问题吗?

1 个答案:

答案 0 :(得分:1)

您可以使用load balancing sink processor拥有一个源和3个接收器。