在Pandas中组织数据-OneHot替代品

时间:2018-07-19 12:16:21

标签: python pandas scikit-learn

我有一个Excel文件,可以使用pd.read_excel读取到熊猫数据框

数据框的格式如下:

          Recipe Num   Raw Num      Phr
0         Comp1        I1           55.0
1         Comp1        I2           45.0
2         Comp1        I3           13.0
3         Comp2        I4           7.7
4         Comp2        I5           5.0
5         Comp3        I2           2.5
6         Comp3        I3           2.0
7         Comp3        I4           2.0

为了将这些数据提供给学习算法,我想将其组织成这样:

                    I1    I2    I3    I4    I5   
0         Comp1     55.0  45.0  13.0  0.0   0.0
1         Comp2     0.0   0.0   0.0   7.7   5.0
2         Comp3     0.0   2.5   2.0   2.0   0.0

由于数据帧非常大,我想避免使用任何类型的for循环。

我一直在寻找预编程的函数,而我得到的最接近的函数是sklearn.feature_extraction.DictVectorizersklearn.preprocessing.OneHotEncoder,但是似乎没有一个主题适合这项工作。

还有其他巧妙的方法可以转换数据吗?

0 个答案:

没有答案