我可以通过在SOLR xml文档中传递路径以及doc中的其他值来搜索pdf和.doc文件

时间:2013-11-14 13:49:41

标签: php xml pdf solr doc

大家好你能告诉你是否有可能通过xml docs传递路径来搜索pdf和word文件......这样xml文件将是这样的......

<doc>
    <field name="id">1</field>
    <field name="name">A</field>
    <field name="sk">Acce</field>
    <field name="level">Beginner</field>
    <field name="do">Tuto</field>
    <field name="open">1</field>
    <field name="type">Ct</field>
    <field name="extensis">cl_ex</field>
    <field name="features">Atos</field>
    <field name="downl"></field>
    <field name="source">Atoms</field>
    <field name="description">Ths.</field>
    <field name="file_path">http://www.abcd.com/files/abcd.pdf</field>

  </doc>

  <doc>
    <field name="id">2</field>
    <field name="name">Ar</field>
    <field name="sk">Acrce</field>
    <field name="level">Beginner</field>
    <field name="do">Tuto1</field>
    <field name="open">11</field>
    <field name="type">C1t</field>
    <field name="extensis">cl_exd</field>
    <field name="features">Atos</field>
    <field name="downl"></field>
    <field name="source">ddddd</field>
    <field name="description">Thsdd.</field>
    <field name="file_path">http://www.abcd.com/files/abcd.pdf</field>

  </doc>

所以在这里,如果我搜索solr查询单词“solr word”,而不是仅在文档中搜索它应该进入文件(file_path)并搜索单词。 任何建议和帮助都将有所帮助..

1 个答案:

答案 0 :(得分:0)

不是我知道的。

但是可以通过另一条路线。您可以使用Apache Tika将pdf / doc文件解压缩到文本中,然后您可以索引所述文本,使您能够在文档内“搜索”。

示例实施:

pdf - &gt;蒂卡

tika - &gt;来自pdf的文字

来自pdf&amp;&amp;的文字filepath - &gt; solr doc

搜索solr - &gt;如果搜索匹配文件的内容

,则返回带有文件路径的doc