俄语中的句子检测

时间:2014-12-10 13:25:33

标签: java nlp opennlp

我正在使用Apache OpenNLP库。我正在开发一个项目,需要用不同语言执行几个NLP任务,其中俄语非常重要。但是我不知道俄语,也找不到俄语的任何OpenNLP模型。

因此,我能够可靠地执行句子检测的唯一方法是在俄语文本上训练一个句子检测器并生成一个我稍后将使用的模型。我必须分析的文本非常具体,并不足以创建有效的模型。

因此,我问是否有人能够提供一个俄语参考文本,用足够普遍的句子(包括常用的成语,缩写等等)分成。我不知道应该多久,因为文档没有指定培训文本的建议大小。但是,我认为可能只有几百句就足够了。

2 个答案:

答案 0 :(得分:0)

为什么不在"上拆分一些给定的文字。"然后自己查看一下,纠正你看到的任何错误? - 对于只有几百个句子,制作自己的语料库可能需要一段时间才能找到一个互联网。

答案 1 :(得分:0)

最后我拿了第一条评论中提出的文件,加上一些关于维基百科的文章,达到了98%的准确度,所以没关系:3