应用错误收集

自然语言处理 - Truecaser分类器

时间：2010-11-22 21:41:28

标签： nlp classification

请建议一个好的机器学习分类器来实现数据集的真实性。此外，是否可以在这样的分类器中指定自己的规则/特征以进行真实引用？感谢您的所有建议。

由于

2 个答案:

答案 0 :(得分：3)

我在Python中实现了一个truecaser版本。当您提供足够的数据（即正确的句子）时，它可以针对任何语言进行训练。

对于英语，它对维基百科的样本句子的准确率达到98.38％。提供预先训练的英语模型。

你可以在这里找到它： https://github.com/nreimers/truecaser

答案 1 :(得分：0)

请看一下这份白皮书。

http://www.cs.cmu.edu/~llita/papers/lita.truecasing-acl2003.pdf

他们报告98％的准确性。