scikit中的机器学习算法 - 学习标准化值?

时间:2013-02-13 13:55:42

标签: machine-learning scikit-learn

首先使用scikit-learn模块的机器学习算法进行图像设置,如何准备特征图像? 我可以使用标准偏差(即最近的Neigbour或群集算法)对值进行标准化吗? 或者我可以按照我在这里看到的(featureValue-min)/(max -min)进行线性缩放:http://www.csie.ntu.edu.tw/~cjlin/talks/mlss_kyoto.pdf用于svm。

2 个答案:

答案 0 :(得分:2)

请阅读:ftp://ftp.sas.com/pub/neural/FAQ2.html#A_std 如果您的要素是从高斯分布中提取的,那么您可以使用SD和均值进行标准化。否则,您只需将其标准化/重新缩放以使它们达到0-1的范围。许多预处理往往依赖于数据和所选择的技术。找到最适合您的数据和技术的内容。

答案 1 :(得分:0)

并非所有算法都需要标准化的输入向量,例如随机森林算法。但是,如果您选择的算法要求归一化,则说SVM然后对其进行归一化,使用预处理模块中Sklearn中可用的归一化器,并在拟合之前将数据转换为规范化数据。此外,如果您尝试对图像进行分类,请查看sklearn中的PCA(主成分分析),这有助于您使用所选要素进行处理并提供更好的性能和结果