PLS。告诉我如何推荐推荐系统的不平衡数据集。
根据我的知识,需要为每个用户创建培训和测试文件,并将其评级作为类标签。对于Ex:
假设用户分别提供了Item1
,Item4
和Item3
rating 5
,5和1,我们希望预测他对Item6
的评分
对于user1
,培训数据将为:
User1_F1,User1_F2,......................Item1_F1,Item1_F2....,5
User1_F1,User1_F2,......................Item4_F1,Item4_F2....,5
User1_F1,User1_F2,......................Item3_F1,Item3_F2....,1
// User1_F1
(显示user1
的功能)& Item3_F1
(显示item3
的功能)等等......
测试数据将是:
User1_F1
,User1_F2
,{...................... {1}},Item6_F1
...., ?
如果我错了,请纠正我....
在这里,我们可以看到类Item6_F2
只出现一次但是label1
来了两次,如何删除这个不平衡的数据集问题?
还告诉我如何处理不平衡数据或任何可以在对此数据应用建议之前进行预处理的工具?