将正则表达式过滤器应用于“爬网程序”以爬网特定页面

时间:2018-10-23 18:49:01

标签: regex web-crawler stormcrawler

我正在使用Storm crawler 1.10和Elastic Search6.3.x。例如,我有一个主网站https://www.abce.org,它的子页面如https://abce.org/defhttps://abce.org/ghi。我想专门抓取https://www.abce.org/ghi下的页面。

我的种子网址是https://www.abce.org/ghi/

当前,我每次都在不同的正则表达式过滤器下面应用。

  1. +^https:\/\/www.abce.org\/ghi*
  2. +^(?:https?:\/\/)www.abce.org\/ghi(.+)*$
  3. +^(?:https?:\/\/)?(?:www\.)?abce\.[a-zA-Z0-9.\S]+$

我测试了我的正则表达式regexr,它的显示有效。但是,当我检查statusindex时,它仅显示发现的种子url,而没有其他显示。

1 个答案:

答案 0 :(得分:1)

尝试使用FastURLFilter可能会更直观。在调试模式下运行拓扑,以检查是否确实将URL提交给URLFilter,并确保它们的行为符合预期。

在您询问之前,here's a tip on debugging Storm