Wikipedia说明了三种特征缩放方法。哪个应该用? (有什么考虑因素?)
具体来说,我需要它用于短语的情感分析,用SVM实现。
(注意:我看过this帖子。它很好地解释了不同的方法,但没有说明何时应该使用它们。)
谢谢:)
答案 0 :(得分:0)
实际上,很难给出任何合理的规则来选择扩展标准。数据的标准化具有良好的理论依据,并且受到异常值的影响小于缩放。结果,最常用的预处理方法是标准化。
特别是,如果您询问标准化而不是使用某种词语表示您的数据。在这种情况下,tf-idf是数据表示中最明显的选择,实际上它几乎不受任何缩放/标准化的影响,因为它本身非常标准化(由于内部规范化和对数缩放)。