我有一个包含二进制数据(0,1)的数据集和具有不同单位的数值数据。如果我想应用一些机器学习技术来分类我的数据(可能是自动编码器或层次结构聚类),我应该标准化还是规范化数据?
谢谢!
答案 0 :(得分:0)
取决于。
对于神经网络,您可能希望出于数值原因标准化连续变量。但这取决于您的平台。考虑Googles TPU:它们以1字节精度工作,因此您希望相关输入域以最佳方式使用此有限范围。
对于基于距离的方法(如聚类),预处理数据至关重要,但也很困难。标准化始终是正确的做法是错误的。但是应用一些规范化是相当普遍的。但是您需要领域专家才能找到最佳的规范化。