我收集了一些文件(比如10个文件),并且我通过这种方式对它们进行索引,方法是存储术语载体
StringReader strRdElt = new StringReader(content);
Document doc = new Document();
String docname=docNames[docNo];
doc.add(new Field("doccontent", strRdElt, Field.TermVector.YES));
IndexWriter iW;
try {
NIOFSDirectory dir = new NIOFSDirectory(new File(pathToIndex)) ;
iW = new IndexWriter(dir, new IndexWriterConfig(Version.LUCENE_35,
new StandardAnalyzer(Version.LUCENE_35)));
iW.addDocument(doc);
iW.close();
}
索引所有文件后,我以这种方式得到每个文件的术语频率
IndexReader re = IndexReader.open(FSDirectory.open(new File(pathToIndex)), true) ;
TermFreqVector termsFreq[]; //size of number of documents
for(int i=0;i<noOfDocs;i++){
termsFreq[i] = re.getTermFreqVector(i, "doccontent");
}
我的问题是我没有相应地获得termfreqncy向量。比如我已编入索引的第二份文件,我在“termsFreq [9]”中获得相应的期限和条款
这是什么原因?如何按照我索引文件的顺序获得相应的期限?