Nutch不会抓取表单中的所有链接

时间:2012-10-09 09:26:21

标签: apache solr nutch web-crawler

抓取我的网站时遇到问题...有一个带有两个下拉列表的表单....当我开始抓取时,抓取工具只从表单中获取部分链接....下载列表它采用部分选项,如第二个下拉列表....我尝试更改nutch-defaults.xml文件中的一些配置,但一切都是相同的......

I change 
fetcher.threads.per.queue  1 - 10         
db.ignore.internal.links true - false  
db.ignore.external.links false - true  
http.content.limit    65536 - 65536000  
file.content.limit    65536 - 65536000  
db.update.max.inlinks  10.000 - 100.000

有没有其他选项,可以帮我抓取我表格中的所有选项......? 谢谢你的回答。

2 个答案:

答案 0 :(得分:1)

很抱歉,发表评论的代表太低了!!!

你有链接。

也是下降ajax或某种花哨的东西。来自内存的Nutch只会抓取页面上的内容。即如果您在页面加载时加载前10个,并且在用户滚动时仅使用服务加载其余部分,我相信它无法找到它。

更多信息对页面有好处....

干杯 罗宾

答案 1 :(得分:0)

谢谢你的回答。这是[link](auto.am/en),爬行后我只有大约100个品牌而不是所有车型都是我的。 ...我希望你有一个链接后,你会建议解决所有汽车品牌和型号:)。感谢。