我想为某些短字符串手动实现分类器,为每个字符串获得“良好”等级。我做了一个朴素的贝叶斯分类器,它基本上是类似垃圾邮件的过滤器,并根据之前的“好”/“坏”评级得分。到现在为止还挺好。 现在,我想解决两个问题(通过正确理解事物)......
问题是 - 下面会有什么好的介绍材料,而不是“食谱”品种,但更系统,但理想情况下比大学统计课程更短:)一套较短的文章比书,还是一本好书。理想地针对程序员。
问题是: 首先,在我的系统中,实际上有三种类型的用户反馈 - “好”,“坏”和“中立”。大多数项目都是中立的,现在我只是不将它们列入排名。我想知道这些事情是如何得到妥善处理的(我仍然需要为每个项目获得单一的“善意概率”,所以如果我分别计算好坏的概率,是否有任何陷阱/适当的方法来组合这些)。 然后,我想从我的分类器中删除天真部分(即考虑单词之间的关系),因此可能有一些不同的分类器。或者,我可以添加所有对三元组等。单词作为特征,因为字符串很短 - 这感觉就像一个黑客,但我的CS /数学背景再次生锈和/或不足以说明这是否是一种有效的技术。