我最近在使用二进制情绪分析中众所周知的电影评论数据集。它包括1,000个正面和1,000个负面评论。在探索具有单字母特征的各种特征编码时,我注意到所有以前的研究出版物都按照欧几里德范数对向量进行归一化,以便将它们缩放到单位长度。
然而,在我使用Liblinear的实验中,我发现这种长度标准化会显着降低分类准确度。我研究了向量,我认为这就是原因:向量空间的维度是10,000。结果,与单个投影相比,矢量的欧几里德范数非常高。因此,在归一化之后,所有矢量在每个轴上得到非常小的数字(即,轴上的投影)。
这令我感到惊讶,因为该领域的所有出版物声称他们执行余弦归一化,而我发现不归一化会产生更好的分类。
因此我的问题是:如果我们不对SVM特征向量进行余弦规范化,是否有任何特定的缺点? (基本上,我正在寻求对这种标准化需求的数学解释。)
答案 0 :(得分:1)
在仔细阅读LibSVM手册之后,我意识到为什么与 not 规范化相比,规范化的准确性要低得多。他们建议将数据缩放到[0,1]或[-1,1]间隔。这是我没有做过的事情。向上扩展将解决太多数据点非常接近零的问题,同时保留长度规范化的优势。