Apache solr中的索引是什么?

时间:2012-10-03 16:39:23

标签: solr lucene

我可以将pdf文件上传到solr,我可以搜索这些文件。但是solr中的索引是什么?当我上传pdf文件时它将如何进行索引编制?

这是我用来上传pdf文件的代码

ContentStreamUpdateRequest up 
            = new ContentStreamUpdateRequest("/update/extract");

            up.addFile(fileName);

            up.setParam("literal.id", solrId);
            up.setParam("literal.first_name", "apachesolr");
            up.setParam("literal.last_name", "cookbook");
            up.setParam("literal.age", "30");

            up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);

            solrServer.request(up);

下面是我的schema.xml

    <field name="first_name" type="string" indexed="true" stored="true" required="true"/>

<field name="last_name" type="string" indexed="true" stored="true" required="true"/>
<field name="age" type="int" indexed="true" stored="true" required="true"/>

<field name="created_at" type="date" indexed="true" stored="true"/>
<field name="updated_at" type="date" indexed="true" stored="true"/>
<field name="id" type="string" indexed="true" stored="true" required="true"/>

当我搜索pdf中的任何内容时。结果看起来像这样

  SolrDocument[{
last_modified=Fri Oct 17 08:17:38 IST 2003, 
author=Mark Roth, Eduardo Pelegri-Llopart, 
title=[JSP 2.0 Specification, Final Release], 
content_type=[application/pdf], 
keywords=JSP, 
age=30, 
last_name=cookbook, 
first_name=apachesolr, 
id=jsp-2_0-fr-spec.pdf
}]

如何获得标题,作者,关键字......等等?

1 个答案:

答案 0 :(得分:4)

你误解了搜索引擎中的文档概念。 文档一组具有相应值的命名字段。您应该始终明确设置每个字段。首先,使用Solrj尝试以下代码:

CommonsHttpSolrServer solr = new CommonsHttpSolrServer("http://localhost:8983/solr");
for(int i = 0; i < 1000; ++i) {
  SolrInputDocument doc = new SolrInputDocument();
  doc.addField("title", "My Favorite book");
  doc.addField("author", "Kevin");
  doc.addField("content", "Bla bla bla");
  solr.add(doc);
}
solr.commit(); 

此代码创建新的SolrInputDocument并添加3个字段 - “title”,“author”和“content”(注意:所有这些字段都应该在schema.xml中定义,只是为了让Solr知道如何索引并存储这些字段),然后将新文档添加到事务(solr.add(doc)),最后提交更改。这是使用Solr的基本方法。

在此正常流程中,您应自己文档中提取文字。例如,您可以使用Tika来实现此目的。这是最灵活和细粒度的方式。

您要做的是使用新的Solr功能 - 内容提取。如果我理解正确,您尝试使用setParams()设置字段,这是错误的。 setParams()仅设置请求参数,然后将其转换为URL参数,让Solr知道如何处理请求本身。据我所知,这种方式你不能自己设置字段。相反,/update/extract处理程序将尝试按文件的MIME类型提取内容查找有关文档属性的提示将它们用作字段(请注意,Solr使用Tika库来提取文档内容)。因此,如果您真的想使用/update/extract处理程序,请尝试关注this example 而不更改与请求参数对应的行,并检查生成的字段