使用Lucene索引单个Xml文件

时间:2016-04-01 16:53:02

标签: java xml indexing solr lucene

我正在编写Java应用程序并希望使用Lucene索引Xml文件,以便我可以搜索具有给定目标的药物。文件大小为400MB,并且填充了超过8000个药物条目。

<drug type="biotech" created="2005-06-13" updated="2015-11-27">
    <drugbank-id primary="true">DB00001</drugbank-id>
    <drugbank-id>BIOD00024</drugbank-id>
    <drugbank-id>BTD00024</drugbank-id>
    <name>Lepirudin</name>
    ....
    <targets>
        <target position="1">
            <id>BE0000767</id>
            <name>Epidermal growth factor receptor</name>
            ....
        </target>
        ....
    </targets>
</drug>
<drug>
....
</drug>

如何索引此文件,以便一个药物条目是一个文件? 如果有人有一些有用的链接/资源或如何索引这个Xml的提示,请告诉我:))

1 个答案:

答案 0 :(得分:1)

最灵活的策略通常是just use SolrJ通过一个小的java应用程序来读取文件,并将其转换为合适的格式,以便在Solr中进行索引。这样,您可以在Solr收到某些字段之前轻松预处理这些字段。

另一个选择是use XSL to transform the XML file into something that Solr understands。这可以在服务器端(与XSLTUpdateRequestHandler链接)或客户端(将XML文档转换为更新请求并将其提交给标准请求处理程序)中使用。