我是机器学习的新手,但是,一位经验丰富的程序员......
我有很多关于客户/代理商互动的数据,从客户的角度来看,这些互动的评级为正/负...我还有很多关于客户的功能(年龄,性别,以前的支出,产品)购买的,....等)
我想培训一个可以从客户特征中学习的模型,他是最好的代理商,可能会产生最高评级...假设类似客户(类似功能)会导致代理能够以同样的方式为他们服务......
假设以下pandas Dataframe:dataset
AgentID Score Cust_F1 Cust_F2 Cust_F3 ..... Cust_Fn
0 1 10 1 0 1 2
1 1 0 0 1 2 0
2 1 9 1 2 1 2
3 2 10 0 1 1 1
4 2 9 0 1 2 1
5 2 0 1 0 2 2
X = dataset.drop([['AgendID','Score']],1).values
y = dataset['AgentID'].values
clf = RandomForestClassifier(n_estimators=100, random_state=1)
clf.fit(X,y)
我想要一种训练模型拒绝(负面训练)所有样本得分= 0的方法。我找不到用sklearn做到这一点的方法...当然,我可以从中删除得分= 0的样本但是,我认为它们是非常有价值的信息,有助于算法正确分类......
我也查看了sample_weight参数,我想如果我把负值放在那里会有所帮助,但是,文档没有提到这个......
有人可以帮助我......