标签: information-retrieval tf-idf
将术语频率和IDf存储为以下内容是否有效:
term1:doc1,tf,doc2,tf,idf term2:doc1,tf,doc2,tf,idf,doc3,tf,idf
term1:doc1,tf,doc2,tf,idf
term2:doc1,tf,doc2,tf,idf,doc3,tf,idf
或将tf-idf存储为:
doc1:tfidf1,tfidf2,tfidf3 doc2:tfidf1,tfidf2,tfidf3
doc1:tfidf1,tfidf2,tfidf3
doc2:tfidf1,tfidf2,tfidf3
vocab长度为3。
P.S:我大约有100万份文件