标签: parsing hadoop solr nutch
我正在使用apache solr 4.10。它的数据是通过apache nutch(hadoop,hbase系统)进行爬行提供的。 Solr使用本地文件系统进行索引存储。现在我必须解析并删除一些不良文档,即没有内容等的文档。
我如何解析它。有没有办法为此目的使用hadoop mapreduce?