我正在尝试对具有200000行和24列的大型csv使用getdummies功能。
我已经将特定的csv转换为pandas
数据帧。
列名company_products_services
包含字符串值,就像我们在推荐系统(例如genre)中遇到的值一样。
在尝试编码时,出现内存错误。
%%time
test_df=pd.concat([df_200K_1,df_200K_1['company_products_services'].str.get_dummies(sep=',')],axis=1)
test_df.shape