标签: nutch
我正在使用Apache Nutch抓取一个网站。在抓取时,我希望nutch忽略多个网址格式,例如...... http://www.youtube.com/..so上的http://www.twitter.com/so等等。
我知道如何配置regex-urlfilter.txt文件来抓取特定的网址。
但我不知道如何配置nutch来忽略某些url模式?
答案 0 :(得分:0)
我按照以下网址发现了很多有用的例子
https://scm.thm.de/pharus/nutch-config/blobs/66fba7d3dc015974b5c194e7ba49da60fe3c3199/Nutch-Config/conf/regex-urlfilter.txt