Question

我正在使用Apache Nutch来抓取网页。当我搜索特定名称时，我想抓取网页如果我搜索账单门，我想获得该搜索结果的结果链接。我有网址喜欢

www.mysite.com/search?name=bill+gates

但在抓取时，它不再显示要抓取的网址。实际上它无法获取任何结果。

是否有抓取该网页的选项？我已经在regex-urlfilter.txt中添加了以接受所有内容。我将如何抓取链接？提前谢谢。

Answer 1

在我的记忆中，nutch有一个额外的设置来切断网址参数，比如？q = bill + gates。我认为这个设置位于automaton-urlfilter.txt：

# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*

所以你必须改变这一行。

希望我能帮到你