抓取我的网站时遇到问题...有一个带有两个下拉列表的表单....当我开始抓取时,抓取工具只从表单中获取部分链接....下载列表它采用部分选项,如第二个下拉列表....我尝试更改nutch-defaults.xml文件中的一些配置,但一切都是相同的......
I change
fetcher.threads.per.queue 1 - 10
db.ignore.internal.links true - false
db.ignore.external.links false - true
http.content.limit 65536 - 65536000
file.content.limit 65536 - 65536000
db.update.max.inlinks 10.000 - 100.000
有没有其他选项,可以帮我抓取我表格中的所有选项......? 谢谢你的回答。
答案 0 :(得分:1)
很抱歉,发表评论的代表太低了!!!
你有链接。
也是下降ajax或某种花哨的东西。来自内存的Nutch只会抓取页面上的内容。即如果您在页面加载时加载前10个,并且在用户滚动时仅使用服务加载其余部分,我相信它无法找到它。
更多信息对页面有好处....
干杯 罗宾
答案 1 :(得分:0)