大家好你能告诉你是否有可能通过xml docs传递路径来搜索pdf和word文件......这样xml文件将是这样的......
<doc>
<field name="id">1</field>
<field name="name">A</field>
<field name="sk">Acce</field>
<field name="level">Beginner</field>
<field name="do">Tuto</field>
<field name="open">1</field>
<field name="type">Ct</field>
<field name="extensis">cl_ex</field>
<field name="features">Atos</field>
<field name="downl"></field>
<field name="source">Atoms</field>
<field name="description">Ths.</field>
<field name="file_path">http://www.abcd.com/files/abcd.pdf</field>
</doc>
<doc>
<field name="id">2</field>
<field name="name">Ar</field>
<field name="sk">Acrce</field>
<field name="level">Beginner</field>
<field name="do">Tuto1</field>
<field name="open">11</field>
<field name="type">C1t</field>
<field name="extensis">cl_exd</field>
<field name="features">Atos</field>
<field name="downl"></field>
<field name="source">ddddd</field>
<field name="description">Thsdd.</field>
<field name="file_path">http://www.abcd.com/files/abcd.pdf</field>
</doc>
所以在这里,如果我搜索solr查询单词“solr word”,而不是仅在文档中搜索它应该进入文件(file_path)并搜索单词。 任何建议和帮助都将有所帮助..
答案 0 :(得分:0)
不是我知道的。
但是可以通过另一条路线。您可以使用Apache Tika将pdf / doc文件解压缩到文本中,然后您可以索引所述文本,使您能够在文档内“搜索”。
示例实施:
pdf - &gt;蒂卡
tika - &gt;来自pdf的文字
来自pdf&amp;&amp;的文字filepath - &gt; solr doc
搜索solr - &gt;如果搜索匹配文件的内容
,则返回带有文件路径的doc