如何从nutch访问已爬网内容以进行内容分类

时间:2014-05-18 06:58:40

标签: java hdfs nutch tagging

我正在运行与Solr集成的nutch用于搜索引擎,nutch抓取工作发生在hadoop上。我的下一个要求是为这个已爬网的内容运行内容分类作业,如何访问存储在HDFS中的文本内容以进行此标记作业,我打算使用Java运行标记作业,如何通过以下方式访问此内容Java?

2 个答案:

答案 0 :(得分:0)

已爬网的内容存储在段目录的数据文件中,例如:

  

段\ 2014 ... \内容\部分-00000 \数据

文件类型是序列文件。要阅读它,您可以使用the hadoop bookthis answer

中的代码

答案 1 :(得分:0)

为什么不使用Solr进行分类?

只需编写自己的插件并对页面进行分类,然后再将它们发送给Solr并在Solr中存储类别值!