我正在尝试预处理我的训练数据,为多层感知器做好准备。我下载的数据包含20,000个实例和16个属性,所有这些属性都是像素的坐标值,作为字母识别的一部分。在发布之前,数据本身已经从原始形式缩放到0到15之间的值。
然而,由于它已经被缩放,是否仍然需要对它进行标准化?我试图阅读并查看前面的例子,但提出了相互矛盾的观点。在一些论文中,它已经表明缩放是一种规范化的形式,正如其他人所说,规范化将使这些值达到0-1的范围。
由于我正在使用WEKA,我在预处理阶段尝试了它们的标准化滤波器,并且它导致精度降低了大约2%,这使我觉得它可能是不必要的。但是,我再次读到,它可能只会在培训后期产生积极影响。
所以我的问题是:
缩放到范围(例如0到15)和规范化之间有什么区别?除了已经完成的扩展之外,我还应该将其标准化吗?
答案 0 :(得分:1)
在您的情况下,您不需要。对数据进行归一化,使得具有不同比例的属性不会决定距离操作的结果,最终决定聚类或分类结果。
一个例子,你有两个属性权重和收入。重量最多为10和200公斤。收入可以是10,000美元和20,000,000美元。但大多数人的收入将是10,000和120,000,而超过这个数值将是异常值。如果在使用多层感知器之前没有规范化数据,神经网络的结果将由这些异常值决定。
在您的情况下,由于您的缩放,这种情况已经减轻,因此您不需要规范化。