在尝试索引文件时,Lemur会收到格式错误的文档错误

时间:2010-02-20 04:52:37

标签: full-text-indexing

我在这里经历了一些狐猴索引教程:

http://www.lemurproject.org/tutorials/begin_indexing-1.php

我创建了一个“语料库”文件夹,其中包含一个文档,其中包含看似格式正确的文件:

<DOC>
<DOCNO>1</DOCNO>
<TEXT>
    Here is some text
</TEXT>
</DOC>

并创建了以下配置文件:

<parameters>
  <corpus>
    <path>C:\Users\Tristan\Documents\lemur\corpus</path>
    <class>trectext</class>
  </corpus>
  <memory>256m</memory>
  <index>C:\Users\Tristan\Documents\lemur\index</index>
</parameters>

然而,当我跑步时:

IndriBuildIndex.exe C:\Users\Tristan\Documents\lemur\config\parameter.xml

我得到了一个神秘的例外:

0:00: Opened repository C:\Users\Tristan\Documents\lemur\index
0:00: Opened C:\Users\Tristan\Documents\lemur\corpus\1
0:00: Error in C:\Users\Tristan\Documents\lemur\corpus\1 : .\src\TaggedDocumentI
terator.cpp(213): Malformed document: C:\Users\Tristan\Documents\lemur\corpus\1
0:00: Closing index
0:00: Finished

我查看了源代码中的相关函数,但没有特别跳出来。有什么想法吗?

1 个答案:

答案 0 :(得分:0)

我最终以unix格式保存我的文档文件并且它有效。但请注意,由于某些原因,手动修复行结尾不起作用,因此除了狐猴不喜欢之外,还有一些其他窗口添加到文件中。