标签: parsing indexing nlp
我有一堆文本文档需要转换为TREC格式。我四处寻找是否存在提及文档格式的地方,或者是否有工具将文档转换为此格式。狐猴项目具有以下格式:
<DOC> <DOCNO> document_number </DOCNO> <TEXT> document text </TEXT> </DOC>
提到here。
有人知道这是否是正确的格式?如果不存在指向它的指针?
答案 0 :(得分:0)
Sourceforge上的狐猴确认了format一种TREC文档格式。否则,您可以尝试查找并下载page上提到的一些NIST语料库数据。