标签: apache solr hbase nutch
我安装了apache nutch 2.3,solr 4.8和hbase 0.9并抓取了网站并获得了内容。我想基于HEADER数据,HTML标签,标签类名称或标签ID索引已爬网内容,或者按照这种方式轻松获取内容HEADER数据,HTML标签,标签类名称或标签ID。我Googed也了解了大部分内容对于nutch 1.x. 请帮我。