我是Nutch和Solr的新手。目前我想抓取一个网站,其内容是
由ASP生成。由于内容不是静态的,我创建了一个seed.txt
包含我要抓取的所有网址。例如:
http://us.abc.com/product/10001
http://us.abc.com/product/10002
http://jp.abc.com/product/10001
http://jp.abc.com/product/10002
...
regex-urlfilter.txt有这个过滤器:
# accept anything else
#+.
+^http://([a-z0-9]*\.)*abc.com/
我使用此命令开始抓取:
/bin/nutch crawl urls -solr http://abc.com:8983/solr/ -dir crawl -depth 10 -topN 10
seed.txt内容包含40,000多个网址。但是,我发现很多网址内容都不是
能够被Solr找到。
问题:
这种方法适用于大型seed.txt吗?
如何查看正在抓取的网址?
seed.txt是否有尺寸限制?
谢谢!
答案 0 :(得分:4)
在nutch配置文件中查看属性db.max.outlinks.per.page
此属性的默认值为100,因此只会从seeds.txt中提取100个网址,其余部分将被跳过。
将此值更改为更高的数字,以便扫描和索引所有网址。
答案 1 :(得分:0)
topN表示应该提取多少生成的链接。您可以生成100个已生成的链接,但如果将topN设置为12,则只会获取,解析和索引这些链接中的12个。