我有一个从UCI here获取的数据集,如下所示:
Arrival_Time Creation_Time x y z
0 1424696633909 1424696631918283972 -5.952240 0.670212 8.136536
1 1424696633918 1424696631923288855 -5.995087 0.653549 8.204376
2 1424696633919 1424696631928385290 -5.942718 0.676163 8.128204
3 1424696633929 1424696631933420691 -5.991516 0.641647 8.135345
4 1424696633929 1424696631938456091 -5.965332 0.629745 8.128204
5 1424696633938 1424696631943522009 -5.991516 0.635696 8.162720
6 1424696633939 1424696631948496374 -5.915344 0.630936 8.105591
7 1424696633951 1424696631953592810 -5.984375 0.694016 8.067505
8 1424696633952 1424696631960428747 -5.937958 0.715439 8.090118
9 1424696633959 1424696631963663611 -5.902252 0.667831 8.069885
正如您所注意到的,Arrival_Time
和Creation_Time
列的值非常大(很可能是因为从智能手表传感器中收集了这些值)。我打算使用神经网络进行分类,但我觉得这些大值会压碎内存!作为预处理的中间精简,减少这两列中值的大小的最佳方法是什么?我考虑了规范化,但我不确定是否应该对数据集中的所有要素应用规范化以保持一致性。任何提示都表示赞赏。
答案 0 :(得分:2)
不要忽略属性的含义。
这些是时间戳。您需要将此数据集视为时间序列。时间与x,y,z坐标不同。