最近,我尝试使用自动编码器来查找异常,但是一些输入功能是计数数据(例如,点击次数或节目数)。在训练之前我是否需要规范化或缩放?
答案 0 :(得分:1)
是的,你会的。最常见的方法是减去平均值并除以标准偏差。您的每个点击项都应单独标准化。例如,如果您有'nb_click_banner'和'nb_click_sidebar'的数量,则应该单独对两者进行标准化。这有助于网络训练更快,但它也为输入提供了相同权重的所有功能,并且不需要网络学习通过某种因素来划分权重,以使其对输出产生相同的影响。
答案 1 :(得分:0)
我认为任何类型的数字特征都需要规范化和缩放数据预处理,否则您可能处于一种特征影响分类过程的情况,而不仅仅是因为它可以容纳的数据范围。