我加载了数据集的两个部分:连续变量和分类变量。这些变量分别使用MinMax缩放器和OneHot编码器进行编码。
continuous_features = ["Col1", "Col2"]
categorical_features = ["Col3", "Col4"]
min_max_enc = joblib.load('minmaxscaler.pkl')
one_hot_enc = joblib.load('onehotencoder.pkl')
df_minmaxEncoded = min_max_enc.transform(df[continuous_features])
df_onehotEncoded = one_hot_enc.transform(df[categorical_features])
然后我需要连接这些数据集:
dataset = pd.concat([df_minmaxEncoded,df_onehotEncoded], axis=1)
它们具有相同的行数。但是问题在于,Numpy数组(df_minmaxEncoded
)中的numpy.ndarray
和df_onehotEncoded
是scipy.sparse.csr.csr_matrix
。
如何将它们都转换为Pandas DataFrame并进行连接?