如何减小数据集中特定要素的值的大小

时间:2018-05-09 18:27:55

标签: machine-learning scikit-learn

我有一个从UCI here获取的数据集,如下所示:

    Arrival_Time        Creation_Time         x         y         z  
0  1424696633909  1424696631918283972 -5.952240  0.670212  8.136536   
1  1424696633918  1424696631923288855 -5.995087  0.653549  8.204376   
2  1424696633919  1424696631928385290 -5.942718  0.676163  8.128204   
3  1424696633929  1424696631933420691 -5.991516  0.641647  8.135345   
4  1424696633929  1424696631938456091 -5.965332  0.629745  8.128204   
5  1424696633938  1424696631943522009 -5.991516  0.635696  8.162720   
6  1424696633939  1424696631948496374 -5.915344  0.630936  8.105591   
7  1424696633951  1424696631953592810 -5.984375  0.694016  8.067505   
8  1424696633952  1424696631960428747 -5.937958  0.715439  8.090118   
9  1424696633959  1424696631963663611 -5.902252  0.667831  8.069885 

正如您所注意到的,Arrival_TimeCreation_Time列的值非常大(很可能是因为从智能手表传感器中收集了这些值)。我打算使用神经网络进行分类,但我觉得这些大值会压碎内存!作为预处理的中间精简,减少这两列中值的大小的最佳方法是什么?我考虑了规范化,但我不确定是否应该对数据集中的所有要素应用规范化以保持一致性。任何提示都表示赞赏。

1 个答案:

答案 0 :(得分:2)

不要忽略属性的含义

这些是时间戳。您需要将此数据集视为时间序列。时间与x,y,z坐标不同。