人们在哪里找到TREC文档格式规范?

时间:2013-11-27 17:48:20

标签: parsing indexing nlp

我有一堆文本文档需要转换为TREC格式。我四处寻找是否存在提及文档格式的地方,或者是否有工具将文档转换为此格式。狐猴项目具有以下格式:

<DOC> 
<DOCNO> document_number </DOCNO> 
<TEXT> 
document text 
</TEXT> 
</DOC>

提到here

有人知道这是否是正确的格式?如果不存在指向它的指针?

1 个答案:

答案 0 :(得分:0)

Sourceforge上的狐猴确认了format一种TREC文档格式。否则,您可以尝试查找并下载page上提到的一些NIST语料库数据。