您好我正在尝试找出文档列表中最具代表性的文档。我想知道是否有任何资源或文件能够做到这一点。我已经汇总了一些简单的统计数据,可以帮助我做到这一点:
因此,我们的想法是DF越高,语料库就越有代表性。如果TF评分针对平均值进行了优化,那么过度使用或未充分使用高DF字的文档将受到惩罚。
这很糟糕,但想知道人们遇到过哪些更好的东西。
答案 0 :(得分:0)
你是否正确提到DF?或者你的意思是反向文件频率?因为为了引入惩罚你需要使用逆。我最近使用字典为此实现了一些工具,以获得更快的结果。
你需要其中三个:
token_doc_count = { doc_id: {token_id: count}}
tokens_freq_corpus = {token_id: count}
tokened_docs = {doc_id: list_of_tokens or string_of_tokens}
此外,TF-IDF应惩罚停用词,因此无需删除它们。