基于标准化数据集标准化输入数据

时间:2018-04-08 18:52:53

标签: python pandas

我有这个代码来规范化pandas数据帧。

import numpy as np; import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
from sklearn import preprocessing


df = pd.read_csv('DS/RS_DS/final_dataset.csv')
rec_df = df.drop(['person_id','encounter_id','birthdate','CN','HN','DN','DIAG_DM','DIAG_NONDM','TPN'], axis=1)

#normalize values from 0 to 1
df_val = rec_df.values
min_max_scaler = preprocessing.MinMaxScaler()
df_val_scaled = min_max_scaler.fit_transform(df_val)
df_scaled = pd.DataFrame(df_val_scaled)


df_flask = pd.DataFrame([[42.8,151,73,79,0,1,74]],columns=['weight','height','wc','hc','isMale','isFemale','age'])
df_flask_val = df_flask.values
df_flask_val_scaled = min_max_scaler.fit_transform(df_flask_val)
df_flask_scaled = pd.DataFrame(df_flask_val_scaled)

df_scaled返回规范化的数据帧。 df_flask是我想基于df_scaled规范化的数据帧,所以我可以用它进行比较。 df_flask_scaled返回全0,我认为它没有根据数据帧进行规范化。无论如何都要规范化单行df。

或者我应该将此数据添加到数据帧然后计算规范化?

1 个答案:

答案 0 :(得分:0)

我认为你应该分别fittransform。这样做是为了确保维持使用拟合的数据分布。

# initialise scaler
min_max_scaler = preprocessing.MinMaxScaler()

# fit here
min_max_scaler.fit(rec_df.values)

# apply transformation
df_val_scaled = min_max_scaler.transform(rec_df.values)
df_flask_val_scaled = min_max_scaler.transform(df_flask_val)