nutch是否会爬过表格?

时间:2012-05-10 15:07:03

标签: solr lucene web-crawler nutch

我想知道nutch 1.4是否开箱即用。例如,如果有一个下拉列表,它是否会尝试从下拉列表中的项目中获取所有可能的页面?

由于

1 个答案:

答案 0 :(得分:1)

Nutch通过HTTP请求获取所需页面的html源代码。现在页面的html源代码可以包含在其中编码的下拉列表。如果使用像dojo / ajax这样的复杂脚本进行编码,那么它将无法像浏览器那样对其进行解释。如果在html源代码中立即看到下拉列表的外链接,那么nutch将会抓取这些页面。除了普通的文本内容,Nutch还会解析html页面的Java脚本部分。

现在要验证这一点,请在bowser / wget中打开页面。在文本编辑器中查看页面源,如notepad / vi。你能看到那里的下拉框的外链吗?如果是的话,那么nutch将抓住那些外链而不是。