文本分类:使用MinMax-Scaler的单词

时间:2016-05-03 12:58:35

标签: machine-learning scikit-learn text-classification

我尝试根据文字袋的表示对文件进行分类(特点:1000)。对于分类,我使用SVM,似乎有时SVM不会终止并无休止地运行。 (运行sci-kit:SVC(C = 1.0,内核='线性',cache_size = 5000,verbose = True)) 现在我正在寻找解决方案,我正在考虑应用MinMax-Scaler来获得计算有效的文档表示。但是,我是否通过功能标准化搞砸了我的单词表示?

提前致谢!

1 个答案:

答案 0 :(得分:0)

它确实终止,只是非常缓慢。缩放你的文字袋不会“搞砸”任何东西 - 实际上它是非常常见的技术,你宁愿很少使用一个单词的模型 - 你要么使用一组单词(按定义缩放)或som scale normalized bag of单词,例如tf-idf(通常比通过min max“压缩”更好)。一般来说,minmax是非常粗糙的技术,对异常值非常敏感(因此,如果你有一个由1000个单词“foo”组成的文档,你的“foo”维度将被压缩1000,即使它只是一个异常值)。因此 - 更喜欢tfidf或至少是标准的缩放器。