在自动编码器,病房层次聚类等之前标准化/标准化数据(二进制+数字)?

时间:2017-04-10 17:42:13

标签: deep-learning cluster-analysis normalization hierarchy standardized

我有一个包含二进制数据(0,1)的数据集和具有不同单位的数值数据。如果我想应用一些机器学习技术来分类我的数据(可能是自动编码器或层次结构聚类),我应该标准化还是规范化数据?

谢谢!

1 个答案:

答案 0 :(得分:0)

取决于。

对于神经网络,您可能希望出于数值原因标准化连续变量。但这取决于您的平台。考虑Googles TPU:它们以1字节精度工作,因此您希望相关输入域以最佳方式使用此有限范围。

对于基于距离的方法(如聚类),预处理数据至关重要,但也很困难。标准化始终是正确的做法是错误的。但是应用一些规范化是相当普遍的。但是您需要领域专家才能找到最佳的规范化。