大家好,
我想知道是否有人可以帮我解决这个问题。我是solr的新手,我正在尝试索引二进制文件,如.pdf,.docx ...问题是我的solr配置索引文件但是当我运行查询时它不显示驻留在文件中的内容。
我默认使用schema.xml。
对于data-config.xml,我使用的是这种配置:
<dataConfig>
<dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://localhost:3306/db"
user="Iam" batchSize="-1"/>
<document>
<entity name="data" datasource="mysql" recursive="true"
query="select id, post, guid from posts'"
>
<field column="guid" name="content"/>
</entity>
</document>
</dataConfig>
在solrconfig.xml中:
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="lowernames">true</str>
<str name="uprefix">ignored_</str>
</lst>
</requestHandler>
我希望有人可以给我一些提示。谢谢你提前。
答案 0 :(得分:0)
如果您正在使用DIH,您可以使用Tika集成来索引富文本内容文档,这些文档可以作为blob字段保存在文件系统或DB中。
Tika和DIH的整合已通过TikaEntityProcessor
提供给Solr