我有三个数据帧,每个数据帧都使用MinMaxScaler()进行单独缩放。
def scale_dataframe(values_to_be_scaled)
values = values_to_be_scaled.astype('float64')
scaler = MinMaxScaler(feature_range=(0, 1))
scaled = scaler.fit_transform(values)
return scaled
scaled_values = []
for i in range(0,num_df):
scaled_values.append(scale_dataframe(df[i].values))
我遇到的问题是每个数据帧都会根据其自己的列min和max值进行缩放。我需要将所有数据帧缩放到相同的值,就好像它们共享整个数据的相同列的最小值和最大值一样。有没有办法用MinMaxScaler()完成这个?一种选择是制作一个大型数据帧,然后在分区之前缩放数据帧,但这并不理想。
答案 0 :(得分:10)
查看sklearn的优秀docs。
如您所见,支持partial_fit()
!这允许在线缩放/小批量缩放,您可以控制小批量!
示例:
import numpy as np
from sklearn.preprocessing import MinMaxScaler
a = np.array([[1,2,3]])
b = np.array([[10,20,30]])
c = np.array([[5, 10, 15]])
""" Scale on all datasets together in one batch """
offline_scaler = MinMaxScaler()
offline_scaler.fit(np.vstack((a, b, c))) # fit on whole data at once
a_offline_scaled = offline_scaler.transform(a)
b_offline_scaled = offline_scaler.transform(b)
c_offline_scaled = offline_scaler.transform(c)
print('Offline scaled')
print(a_offline_scaled)
print(b_offline_scaled)
print(c_offline_scaled)
""" Scale on all datasets together in minibatches """
online_scaler = MinMaxScaler()
online_scaler.partial_fit(a) # partial fit 1
online_scaler.partial_fit(b) # partial fit 2
online_scaler.partial_fit(c) # partial fit 3
a_online_scaled = online_scaler.transform(a)
b_online_scaled = online_scaler.transform(b)
c_online_scaled = online_scaler.transform(c)
print('Online scaled')
print(a_online_scaled)
print(b_online_scaled)
print(c_online_scaled)
输出:
Offline scaled
[[ 0. 0. 0.]]
[[ 1. 1. 1.]]
[[ 0.44444444 0.44444444 0.44444444]]
Online scaled
[[ 0. 0. 0.]]
[[ 1. 1. 1.]]
[[ 0.44444444 0.44444444 0.44444444]]