我得到了一个数据集(每日和每月的降雨量数据),但它缺少这么多的价值。 为了训练我需要填补缺失数据的数据,你能告诉我我该怎么办?我使用SPSS Statistic,但似乎价值不好或者我做错了方法。
sample:
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
3 3 5 5 6 7 8 7 8 9 NaN 4
NaN 3 NaN 5 NaN 3 4 NaN 4 6 7 8
7 NaN 4 7 8 9 4 2 NaN 4 6 5
.....................................................
另一个问题是,培训前的数据大多应该是规范化数据,这是正确的吗? 谢谢你的回答! 圣诞快乐!
答案 0 :(得分:1)
对于缺失数据,您可以选择使用mean
现有数据来模拟丢失的数据。例如,您可以mean(3, 7) = 5
填写NaN
中的Jan
,依此类推。我认为这可能是最简单的方法。您也可以考虑矩阵分解和曲线拟合。
对于规范化,某些分类器不需要规范化数据。但是,将数据规范化通常是提高性能的好方法。对于神经网络,已知归一化数据是非常有利的。所以不要犹豫。
答案 1 :(得分:0)
按Ctrl+G
,然后点击Special
,然后点击Formulas
,然后确保仅选中Errors
,然后点击OK
。这将选择所有有错误的单元格。然后,您可以按Delete
清除其内容。
我有时会创建第二个表,其中公式将一个表的值转换为原始值或更易于管理的内容,如建议here。