自然语言处理 - Truecaser分类器

时间:2010-11-22 21:41:28

标签: nlp classification

请建议一个好的机器学习分类器来实现数据集的真实性。 此外,是否可以在这样的分类器中指定自己的规则/特征以进行真实引用?感谢您的所有建议。

由于

2 个答案:

答案 0 :(得分:3)

我在Python中实现了一个truecaser版本。当您提供足够的数据(即正确的句子)时,它可以针对任何语言进行训练。

对于英语,它对维基百科的样本句子的准确率达到98.38%。提供预先训练的英语模型。

你可以在这里找到它: https://github.com/nreimers/truecaser

答案 1 :(得分:0)

请看一下这份白皮书。

http://www.cs.cmu.edu/~llita/papers/lita.truecasing-acl2003.pdf

他们报告98%的准确性。