我一直试图规范化我的数据集,其中包含许多具有不同分布的特征,归一化,正偏斜和负偏斜。 在进行数据规范化作为构建分类模型的初步步骤时,是否应该对数据集中的所有要素应用相同的规范化技术,还是应该对数据集中的不同要素应用不同的规范化技术?
答案 0 :(得分:0)
<强>也许强>
没有一刀切的规则。
如果你是在小规模上有x,y坐标,是的然后使用相同的归一化可能更合适。与“相同比例”相同,而不仅仅是“相同方法”。如果您有纬度和经度,请不要进行任何规范化,除非您有理由认为地球是扭曲的。 如果你有完全不同的比例,说属性A是“鞋子大小”,属性B是“pi / shoe-size”,那么YES,你需要对这两个属性进行不同的标准化。
通常,当出现这个问题时,您还没有理解您的数据。