我有一个Excel文件,可以使用pd.read_excel读取到熊猫数据框
数据框的格式如下:
Recipe Num Raw Num Phr
0 Comp1 I1 55.0
1 Comp1 I2 45.0
2 Comp1 I3 13.0
3 Comp2 I4 7.7
4 Comp2 I5 5.0
5 Comp3 I2 2.5
6 Comp3 I3 2.0
7 Comp3 I4 2.0
为了将这些数据提供给学习算法,我想将其组织成这样:
I1 I2 I3 I4 I5
0 Comp1 55.0 45.0 13.0 0.0 0.0
1 Comp2 0.0 0.0 0.0 7.7 5.0
2 Comp3 0.0 2.5 2.0 2.0 0.0
由于数据帧非常大,我想避免使用任何类型的for循环。
我一直在寻找预编程的函数,而我得到的最接近的函数是sklearn.feature_extraction.DictVectorizer
和sklearn.preprocessing.OneHotEncoder
,但是似乎没有一个主题适合这项工作。
还有其他巧妙的方法可以转换数据吗?