标签: python-2.7 machine-learning scikit-learn classification text-mining
我根据一些语言学理论编写了自己的文本分类器。分类器的最终结果是文章标题和二进制类别的元组对。
我还在我的Golden标准语料库中使用了NB分类器,并使用Python中的Sci-kit学习库评估了它的CV性能。但是,我正在努力弄清楚如何评估我自己的分类器的性能。 :S
我非常感谢你的想法,因为我没有经验丰富的机器学习者。
谢谢,
古兹德
答案 0 :(得分:0)
要评估分类器,最常见的指标是准确性,但对于所有可能的方案都没有经验法则,因此我建议您阅读一些关于分类器的评估指标。另请阅读评估方法。
如果您没有时间,请坚持准确性和交叉验证,但一定要了解给定指标的含义,您的方法意味着什么,如何阅读混淆矩阵,每个指标和方法的利弊,特别是它的局限性。
Scikit Learn的参考页面了解其指标:Link
Scikit Learn的交叉验证用户指南:Link
你说你有你的黄金标准。你说你有自己的模特。然后,您只需选择指标和评估方法。
您的模型将根据输入(一组要素)预测一个类/目标。然后将预测与您的基本事实/黄金标准进行比较。