根据链接this,IDF用于否定文档中常用单词的权重(例如&#34;&#34;,&#34;&#34;等等)< / p>
如果我在提取功能之前应用停用词删除,是否应该应用IDF?我觉得只有Term Frequency就足够了,因为已经过滤了重复不重要的单词。
请adivse
答案 0 :(得分:1)
即使您使用停用词删除,IDF在大多数情况下仍然有用。
我个人试图避免停止删除单词:它取决于语言,列表的内容是任意的,您可以删除有用的单词。删除停用词就像使用IDF并说:从这个截止点开始,上面的一切都很好,下面的一切都没用(没有“介于”区域之间!),这显然无法反映语言的真实本质。
但回答你问题的最好方法是试验这两种方法:如果你在文本分类或信息检索过程中使用TF-IDF,为什么不尝试使用和不使用IDF进行测试,看看哪一个产生了最准确?