文件清单中最具代表性的文件

时间:2017-04-07 19:17:52

标签: python nlp document tf-idf

您好我正在尝试找出文档列表中最具代表性的文档。我想知道是否有任何资源或文件能够做到这一点。我已经汇总了一些简单的统计数据,可以帮助我做到这一点:

  • 使用双字母删除停用词
  • 矩阵乘法和TF的总和乘以DF以获得文档的分数
  • 无论什么文件都有最接近平均TF * DF的TF * DF得分将被检索

因此,我们的想法是DF越高,语料库就越有代表性。如果TF评分针对平均值进行了优化,那么过度使用或未充分使用高DF字的文档将受到惩罚。

这很糟糕,但想知道人们遇到过哪些更好的东西。

1 个答案:

答案 0 :(得分:0)

你是否正确提到DF?或者你的意思是反向文件频率?因为为了引入惩罚你需要使用逆。我最近使用字典为此实现了一些工具,以获得更快的结果。

你需要其中三个:

token_doc_count = { doc_id: {token_id: count}}
tokens_freq_corpus = {token_id: count}
tokened_docs = {doc_id: list_of_tokens or string_of_tokens}

此外,TF-IDF应惩罚停用词,因此无需删除它们。