在solr4索引PDF没有在搜索时返回的文档

时间:2016-04-21 08:41:38

标签: apache solr apache-tika

我对Solr很新。尝试使用solr-cell索引pdf文件。

使用:DataImportHandler

$cfg['Servers'][$i]['AllowNoPassword'] = FALSE;

蒂卡-config.xml中

  <requestHandler name="/dataimport" class="solr.DataImportHandler">
<lst name="defaults">
  <str name="config">tika-data-config.xml</str>
</lst>

Schema.xml的

<dataConfig>
<dataSource type="BinFileDataSource" />
<document>
    <entity name="tika-test" processor="TikaEntityProcessor"
            url="C:/solr-4.9.0/contrib/extraction/src/test-docs/extraction/apache-solr-ref-guide-4.9.pdf" format="text">
            <field column="Author" name="author" meta="true"/>
            <field column="title" name="title" meta="true"/>
            <field column="text" name="text"/>
    </entity>
</document>

我从solr admin运行数据导入处理程序后,它说处理了1个文档,更新了一个文档。这很好,因为我只提供一个文件

但是当我在solr admin中用q作为执行搜索时,它给了我以下内容

   <field name="title" type="text_general" indexed="true" stored="true" multiValued="true"/>
   <field name="author" type="text_general" indexed="true" stored="true"/>

   <!-- catchall field, containing all other searchable text fields (implemented
        via copyField further on in this schema  -->
   <field name="text" type="text_general" indexed="true" stored="false" multiValued="true"/>

我不知道我错过了什么,我找不到任何使用solr文件的东西。这是一个非常简单的例子,所以如果所有的conf都是正确的,它应该是有用的:(

2 个答案:

答案 0 :(得分:0)

您需要在索引文档后提交。或重新加载核心或重新启动Solr

(请参阅以下网址,根据您更改网址名称)

  

http://127.0.0.1:8080/solr/admin/cores?action=RELOAD&core=core1

答案 1 :(得分:0)

解决这些问题的最简单方法是使用类型字符串(存储和索引)取消注释/定义动态字段*。这样,您通过配置获得的每个字段都会显示出来。一旦该部分正确,您就可以返回并微调导入定义和模式。