如何使用Indri索引XML Wikipedia转储文件?

时间:2019-04-17 22:38:12

标签: indexing wikipedia information-retrieval indri

对于一个信息检索类项目,我正在为Wikipedia Articles编写搜索引擎。 Wikipedia提供了包含所有文章及其标题的XML转储。我需要为文章建立索引,并试图使用Indri buildIndex。

我尝试编写自己的自定义buildIndex参数文件,指定该文件为xml,并且文章由元素分隔。但是,当我尝试运行buildIndex时,它会运行一小段时间(Wikipedia文件为50 + GB),并且索引文件夹为空。

 <parameters>
    <index>D:\Documents...Index</index>
    <memory>6G</memory>
    <corpus>
      <path>D:\Documents...</path>
      <class>xml</class>
    </corpus>
    <stemmer><name>porter</name></stemmer>
    <field>
      <name>title</name>
    </field>
     <stopper>
    <word>a</word>
     </stopper>
  </parameters>

我希望这可以为每篇文章建立索引,以便编写一个使用向量空间模型搜索文档的搜索引擎。

0 个答案:

没有答案