我有一个庞大的数据框,并试图找出最有效的方法来规范化列中的每个值,然后使用mean和std.dev遍历所有列。
数据框的示例如下:
TimeStamp 340 341 342 343
0 10:27:30 1.953036 2.110234 1.981548 1.705684
1 10:28:30 1.973408 2.046361 1.806923 1.496244
2 10:29:30 0.000000 0.000000 0.014881 0.198947
3 10:30:30 2.567976 3.169928 3.479591 3.557881
4 10:31:30 4415.498729 5075.996948 5653.925541 6133.202200
5 10:32:30 4473.930295 5146.802497 5736.030854 6224.380260
我想: 找到col [“340”]的平均值:
for column in df.iteritems():
df.mean()
df.std()
...进一步计算正常化
然而,我对熊猫非常新,但它不起作用...... :( 我可以找到每个col的平均值,但我有2500个cols
答案 0 :(得分:1)
如果您希望规范化数据,那么您可以执行此操作
(df.iloc[:,1:] - df.mean().values)/df.std().values
假设你想做(X-mean)/标准偏差归一化。注意:df.loc[]
曾用于免除TimeStamp的第一列...