如何获取solr索引的stackoverflow标记?

时间:2016-03-25 12:22:53

标签: nutch

最近,我使用nutch-1.11和solr-4.10.4来设置爬虫,我可以通过顺序nutch命令抓取数据,但现在我的问题是如何获取指定的数据,如问题的标签以stackoverflow为例,那么我可以将这些数据用于solr索引以达到我的目的吗?我尝试配置和修改" local / conf / nutch-site"但对我来说不起作用,我是Nnutch的新手!

1 个答案:

答案 0 :(得分:0)

Nutch提取网址,因此您可以将其指向一个页面,该网页可能包含该标记问题的所有链接。

例如 https://stackoverflow.com/questions/tagged/nutch?sort=newest,此页面包含指向Nutch作为标记的所有问题的链接。现在通过爬行2轮或更多轮将使Nutch从该页面获取所有外链。