在solrindex期间,如何告诉Nutch跳过使用空内容字段索引这些文档?
我找到了http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/,但是index-omit插件只允许Nutch过滤那些没有某些元标记字段的文档,而不是内容等常规字段。
答案 0 :(得分:2)
您可能需要实现一个新的Nutch过滤器,如果内容为空,则会丢弃该文档。
您可以通过以下链接获取有关如何编写插件的更多信息:https://wiki.apache.org/nutch/AboutPlugins
编辑:
我写了一个简单的插件就是一个例子。
它查看“内容”字段,如果它是空的,它将忽略该文档而不对其进行索引。
您可以从此处获取:https://github.com/nimeshjm/index-discardemptycontent