澄清Stormcrawler的default-regex-filters.txt的工作方式

时间:2019-03-20 13:24:19

标签: web-crawler stormcrawler

使用Stormcrawler,如果我将-^(http|https):\/\/example.com\/page\/?date添加到default-regex-filters.txt中,但我仍然看到

2019-03-20 08:49:58.110 c.d.s.b.JSoupParserBolt Thread-5-parse-executor[7 7] [INFO] Parsing : starting https://example.com/page/?date=1999-9-16&t=list
2019-03-20 08:49:58.117 c.d.s.b.JSoupParserBolt Thread-5-parse-executor[7 7] [INFO] Parsed https://example.com/page/?date=1999-9-16&t=list in 6 msec

在日志中,但索引中没有文档显示。 Stormcrawler是回避该URL,还是仍在获取它,还是只是从状态表中检索一个URL,然后对其进行评估?

1 个答案:

答案 0 :(得分:0)

过滤将应用到解析后的外链上,“生存” URL被发送到状态更新程序螺栓。它会影响URL的发现,换句话说,如果URL是由spout发送的,它将被处理。