我想计算tf-idf weight。所以,为了找到idf,我需要不同文件的大数据库。然后我用colums-(word / count)创建了其他数据库。 所以我的问题是“我在哪里可以找到”idf“(或计数)coef的最后一个数据库”? 许多搜索引擎正在使用这个数据库,也许有可能在Internet上找到不同语言的这个数据库? 我不想自己制作这个数据库。
答案 0 :(得分:2)
idf是反向文档频率。换句话说,该术语的频率在分母中。所以你想要的是词频表。 Wiktionary:Frequency lists应该让你入门。请记住,这些列表将单词的变形形式视为同一个单词,例如是,是,我,是...... ....