svm - SVM整数功能

你应该将它们转换为浮点数，但这样做的方式取决于整数特征实际代表的含义。

整数是什么意思？它们是类别成员指标（例如：1 = =运动，2 = =业务，3 ==媒体，4 = =人......）或具有订单关系的数字度量（3大于2依次是大于1）。例如，你不能说“人”比“媒体”大。它没有意义，会混淆机器学习算法给它这个假设。

因此，应该转换分类特征，将每个特征作为几个布尔特征（值为0.0或1.0）分解为每个可能的类别。看看scikit中的DictVectorizer class - 学习如何更好地理解我的分类特征。

如果有数值，只需将它们转换为浮点数，也可以使用Scaler将它们松散地放在[-1,1]范围内。如果它们跨越几个数量级（例如，单词出现次数），则取对数的对数可能会产生更好的结果。有关功能预处理的更多文档以及本文档此部分中的示例：http://scikit-learn.org/stable/modules/preprocessing.html

修改：还请阅读本指南，其中包含有关功能表示和预处理的更多详细信息：http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf

SVM整数功能

1 个答案: