应用错误收集

如何从nutch访问已爬网内容以进行内容分类

时间：2014-05-18 06:58:40

标签： java hdfs nutch tagging

我正在运行与Solr集成的nutch用于搜索引擎，nutch抓取工作发生在hadoop上。我的下一个要求是为这个已爬网的内容运行内容分类作业，如何访问存储在HDFS中的文本内容以进行此标记作业，我打算使用Java运行标记作业，如何通过以下方式访问此内容Java？

2 个答案:

答案 0 :(得分：0)

已爬网的内容存储在段目录的数据文件中，例如：

段\ 2014 ... \内容\部分-00000 \数据

文件类型是序列文件。要阅读它，您可以使用the hadoop book或this answer

中的代码

答案 1 :(得分：0)

为什么不使用Solr进行分类？

只需编写自己的插件并对页面进行分类，然后再将它们发送给Solr并在Solr中存储类别值！