我是新来的爬行者,尤其是阿帕奇坚果。阿帕奇坚果的配置确实很复杂。我已经通过apache进行了很多研究,并找到了regex-urlfilter.txt文件,其中必须提及要爬网的页面并限制爬网。因为没有关于此的好的/简单的教程,所以我在这里。问题的解释如下。
说明
假设我有一个名为https://www.example.com
的网站。现在,为了只对这个网站进行爬网并限制我的爬网,我知道我必须像这样+^https://www.example.com/
编辑我的regex-urlfilter.txt文件。现在,如果我想进一步限制这个呢?例如,我只想抓取该给定网站中的某些页面。
https://www.example.com/something/details/1
https://www.example.com/something/details/2
https://www.example.com/something/details/3
https://www.example.com/something/details/4
https://www.example.com/something/details/5
.
.
.
https://www.example.com/something/details/10
P.S:作为新成员,我在提出一个好的问题时可能犯了很多错误。请帮助我改善问题,而不是给-1。我将非常感谢大家。
答案 0 :(得分:0)
如果您只想抓取https://www.example.com/something/details/
及以下版本,请替换以下位置的regex-urlfilter.txt的最后一行:
# accept anything else
+.
收件人:
+https://www.example.com/something/details/
-.
这将仅包含包含https://www.example.com/something/details/
的URL,而忽略所有其他URL。