在向量空间模型中分别存储TF-IDF,项频和IDF

时间:2018-10-10 12:51:01

标签: information-retrieval tf-idf

将术语频率和IDf存储为以下内容是否有效:

  

term1:doc1,tf,doc2,tf,idf

     

term2:doc1,tf,doc2,tf,idf,doc3,tf,idf

或将tf-idf存储为:

  

doc1:tfidf1,tfidf2,tfidf3

     

doc2:tfidf1,tfidf2,tfidf3

vocab长度为3。

P.S:我大约有100万份文件

0 个答案:

没有答案