对于一个信息检索类项目,我正在为Wikipedia Articles编写搜索引擎。 Wikipedia提供了包含所有文章及其标题的XML转储。我需要为文章建立索引,并试图使用Indri buildIndex。
我尝试编写自己的自定义buildIndex参数文件,指定该文件为xml,并且文章由元素分隔。但是,当我尝试运行buildIndex时,它会运行一小段时间(Wikipedia文件为50 + GB),并且索引文件夹为空。
<parameters>
<index>D:\Documents...Index</index>
<memory>6G</memory>
<corpus>
<path>D:\Documents...</path>
<class>xml</class>
</corpus>
<stemmer><name>porter</name></stemmer>
<field>
<name>title</name>
</field>
<stopper>
<word>a</word>
</stopper>
</parameters>
我希望这可以为每篇文章建立索引,以便编写一个使用向量空间模型搜索文档的搜索引擎。