我正在使用Apache Nutch来抓取网页。当我搜索特定名称时,我想抓取网页 如果我搜索账单门,我想获得该搜索结果的结果链接。我有网址喜欢
www.mysite.com/search?name=bill+gates
但在抓取时,它不再显示要抓取的网址。实际上它无法获取任何结果。
是否有抓取该网页的选项?我已经在regex-urlfilter.txt中添加了以接受所有内容。 我将如何抓取链接?提前谢谢。
答案 0 :(得分:1)
在我的记忆中,nutch有一个额外的设置来切断网址参数,比如?q = bill + gates。 我认为这个设置位于automaton-urlfilter.txt:
# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*
所以你必须改变这一行。
希望我能帮到你