我们正在构建Web爬网机制,希望最终用户尽快查看收集的结果,并在所有数据都在数据库中时得到通知。 收集结果通过最少的ETL处理。我们正在寻找一个ETL,它将通知何时处理整个有限流(以及可能的进度)。该流分为一组Zip文件和一个包含zip文件列表的文件(当完全抓取该流时,它将与ETL异步到达)。
我们查看了apache flink和apache nifi。 Apache flink支持批处理,客户端可以等待批处理完成,但是这里的数据更像是有限流,这意味着处理应该在所有数据可用之前开始,并基于列出所有zip文件的另一个文件结束。使用通知和等待,Apache nifi似乎更适合此工作。它可以与nifi一起使用吗? nifi是为此类情况设计的吗? nify能否通知有限流的进度和完成?有什么缺点?还有其他选择吗?
答案 0 :(得分:0)
您可以拥有受限制的Flink流。我将创建一个自定义SourceFunction
,它使用“ zip文件列表”来决定何时终止。