我正在运行与Solr集成的nutch用于搜索引擎,nutch抓取工作发生在hadoop上。我的下一个要求是为这个已爬网的内容运行内容分类作业,如何访问存储在HDFS中的文本内容以进行此标记作业,我打算使用Java运行标记作业,如何通过以下方式访问此内容Java?
答案 0 :(得分:0)
已爬网的内容存储在段目录的数据文件中,例如:
段\ 2014 ... \内容\部分-00000 \数据
文件类型是序列文件。要阅读它,您可以使用the hadoop book或this answer
中的代码答案 1 :(得分:0)
为什么不使用Solr进行分类?
只需编写自己的插件并对页面进行分类,然后再将它们发送给Solr并在Solr中存储类别值!