Question

我已使用POST命令成功索引PDF，如以下链接所述：http://makble.com/how-to-extract-text-from-pdf-and-post-into-solr

可以查询存储在索引PDF文件中的术语，可以使用常规查询或文本字段找到这些术语。

然而，我没有看到＆＃34;内容＆＃34;我可以使用其他PDF相关字段生成字段。我尝试编辑托管模式文件以添加字段：

<field name="content" type="text_general" indexed="false" stored="true" multiValued="true"/>

<copyField source="content" dest="text"/>

当我尝试重新加载核心时出现以下错误：

<str name="msg">Error handling 'reload' action</str>
<str name="trace">
org.apache.solr.common.SolrException: Error handling 'reload' action at org.apache.solr.handler.admin.CoreAdminOperation.lambda$static$2(CoreAdminOperation.java:110) at org.apache.solr.handler.admin.CoreAdminOperation.execute(CoreAdminOperation.java:370) at org.apache.solr.handler.admin.CoreAdminHandler$CallInfo.call(CoreAdminHandler.java:388) at org.apache.solr.handler.admin.CoreAdminHandler.handleRequestBody(CoreAdminHandler.java:174)

我的solrconfig.xml包含：

<requestHandler name="/update/extract"
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <str name="lowernames">true</str>
      <str name="fmap.meta">ignored_</str>
      <str name="fmap.content">_text_</str>
    </lst>
  </requestHandler>

我想拥有＆＃34;内容＆＃34;字段可用于仅搜索索引的pdf文件中的文本。

Answer 1

1）不要手动编辑模式文件。而是使用Schema API。

2）fmap.content将content字段映射到您案例中的_text_字段。如果您已经定义了content字段，那么只需从ExtractingRequestHandler定义中删除此特定参数即可完成此任务。

否＆＃34;内容＆＃34;使用solr索引PDF时创建的字段

1 个答案: