请建议一个好的机器学习分类器来实现数据集的真实性。 此外,是否可以在这样的分类器中指定自己的规则/特征以进行真实引用?感谢您的所有建议。
由于
答案 0 :(得分:3)
我在Python中实现了一个truecaser版本。当您提供足够的数据(即正确的句子)时,它可以针对任何语言进行训练。
对于英语,它对维基百科的样本句子的准确率达到98.38%。提供预先训练的英语模型。
你可以在这里找到它: https://github.com/nreimers/truecaser
答案 1 :(得分:0)