现在我正在抓取像ebay for cars这样的网站,www.standvirtual.com
在我的nutch regex-urlfilter.txt + ^ http://([a-z0-9] *。)* standvirtual.com/carros/anuncios/这样只是抓取汽车的广告,但是像这样的nutch将索引整个内容页面,我只想索引该页面的特定部分,如添加标题,描述等...
例如: 让我们想象一下这款游戏的标题是奥迪a3 2.0cc 和奥迪a3 2000cc与交流,柴油...
答案 0 :(得分:0)
您必须覆盖parsefilter并使用Jsoup选择器选择要爬网和索引的部分。 看看这个https://stackoverflow.com/a/38854219/5676586