我正在使用Storm crawler 1.10和Elastic Search6.3.x。例如,我有一个主网站https://www.abce.org
,它的子页面如https://abce.org/def
和https://abce.org/ghi
。我想专门抓取https://www.abce.org/ghi
下的页面。
我的种子网址是https://www.abce.org/ghi/
。
当前,我每次都在不同的正则表达式过滤器下面应用。
+^https:\/\/www.abce.org\/ghi*
+^(?:https?:\/\/)www.abce.org\/ghi(.+)*$
+^(?:https?:\/\/)?(?:www\.)?abce\.[a-zA-Z0-9.\S]+$
我测试了我的正则表达式regexr,它的显示有效。但是,当我检查statusindex时,它仅显示发现的种子url,而没有其他显示。