apache nutch 2.3 2.x solr 4.8 hbase

时间:2016-09-20 12:49:45

标签: apache solr hbase nutch

我安装了apache nutch 2.3,solr 4.8和hbase 0.9并抓取了网站并获得了内容。我想基于HEADER数据,HTML标签,标签类名称或标签ID索引已爬网内容,或者按照这种方式轻松获取内容HEADER数据,HTML标签,标签类名称或标签ID。我Googed也了解了大部分内容对于nutch 1.x. 请帮我。

0 个答案:

没有答案