Question

使用Stormcrawler，如果我将-^(http|https):\/\/example.com\/page\/?date添加到default-regex-filters.txt中，但我仍然看到

2019-03-20 08:49:58.110 c.d.s.b.JSoupParserBolt Thread-5-parse-executor[7 7] [INFO] Parsing : starting https://example.com/page/?date=1999-9-16&t=list
2019-03-20 08:49:58.117 c.d.s.b.JSoupParserBolt Thread-5-parse-executor[7 7] [INFO] Parsed https://example.com/page/?date=1999-9-16&t=list in 6 msec

在日志中，但索引中没有文档显示。 Stormcrawler是回避该URL，还是仍在获取它，还是只是从状态表中检索一个URL，然后对其进行评估？

Answer 1

过滤将应用到解析后的外链上，“生存” URL被发送到状态更新程序螺栓。它会影响URL的发现，换句话说，如果URL是由spout发送的，它将被处理。

澄清Stormcrawler的default-regex-filters.txt的工作方式

1 个答案: