通过训练分类器来注释数据集?

时间:2014-03-16 19:23:57

标签: machine-learning classification

我有{3}个5331个正面和5331个负面评价。我想标记每个评论的强度。强度可以是" 0"或" 1"。 他们的任何技术都可以手动标记1000条评论并训练分类器。如果分类器执行得非常好(比如90%s-fold验证),那么我可以使用分类器的输出来填充剩余的评论?手动填充1/10数据并预测剩余数据是否合理?

我是机器学习的新手。

1 个答案:

答案 0 :(得分:0)

您正在寻找的短语是情感分析,这是机器学习社会中众所周知的问题。这是NLP分类中较容易完成的任务之一,因此很有可能实现超过90%的准确度。一般来说,10-CV的scors是真实分类器行为的一个非常合理的近似值,假设数据集足够大。还有其他(通常被认为是更好的)技术,例如那些基于bootstrap的技术 - 谷歌为Err ^ 0.632作为一个例子。