SOLR - 在将文档中的字段值添加到SOLR时,如何从文档中提取字段值?

时间:2011-03-31 22:14:57

标签: solr

将SolrJ与SOLR 1.4.1一起使用。

所以我定义了一组我要索引的字段。假设我有数百个文档(假设它们是文本文件),我想将其添加到SOLR以创建索引。我有办法向SOLR提供文件并让它在每个文件中找到字段的值吗?

例如,假设我在SOLR模式中有一个名为“manufacturer”的字段。我还有一份文件:

  

Lorem ipsum dolor sit amet,consectetur adipisicing elit,sed do   eiusmod tempor incididunt ut labore et   dolore magna aliqua。 Ut enim ad minim   veniam,quis nostrud exercitation   ullamco laboris nisi ut aliquip ex ea   商品问题。 Duis aute irure   dolor 制造商极致在rephenderit in voluptate   velit esse cillum dolore eu fugiat   nulla pariatur。行人sint   occaecat cupidatat non proident,sunt   在culpa qui officia deserunt mollit   anim id est laborum。

我能以某种方式让SOLR从该文件中挑出“极致”作为“制造商”字段的价值吗?或者,在将其添加到SOLR中之前,是否需要手动浏览每个文档,并使用以下内容手动查找每个字段的值:

SolrInputDocument doc = new SolrInputDocument();
doc.addField("manufacturer", "acme");

1 个答案:

答案 0 :(得分:1)

在Solr中没有内置的方法可以做到这一点。你有几个选择:

  • 手动构建Solr JSON / XML输入文档
  • 使用自然语言处理来注释您的文档,然后使用注释生成单独的Solr字段(请参阅Solr UIMA
  • 编写您自己的UpdateRequestProcessor,通过正则表达式,XPath或任何适合您的文档从文档中提取字段