我正在使用线性svc(scikit learn)来分类为新闻类别,如体育,健康,世界,技术,生活方式。现在,对于给定的文本,假设它具有: 1)5个单词窗口和3个单词机器出现它没有分类到技术中但是如果我使用相同的文本并且将窗口的出现增加到12并且机器到10则它被分类为技术。
那么有没有办法提高线性svc中任何相关单词的重要性?
答案 0 :(得分:0)
你基本上在寻找TF-IDF。这里TF代表Term频率,即(Count of a term in a document)/(Total Number of terms in a document)
。这将帮助您获得文档中最常用的术语。然而,可能出现这样的情况:一些不太频繁发生的术语对于分类可能更重要(或者说具有更多的分类权重)。在这种情况下,您包括反向文档频率(IDF)。它计算为log(Total documents/(Number of documents containing a certain term, say 'x')
然后最后你将Tf * IDF值乘以得到该项的TF-IDF。
这是简短example at this link。
参考文献: