Question

我正在开发一项功能，即为拉丁语言（目前是英语）应用语言分词规则（语法）。

目前我处于打破用户输入句子的阶段。

e.g.:

"I am working in language translation". "I have used Google MT API for this"

在上面的例子中，我将完全停止句子（。）这是正常的情况，我在点上打破句子，但是有多个字符用于打破句子，如（。！？etc）。

我遵循SRX规则进行细分。

我的问题是： -

1）是否有任何参考？可用于解析我的语言细分规则。

2）或者是否有任何关于语言细分的论坛？，以便我能够有效地讨论

如果有人知道，请告诉我？

非常感谢。

Answer 1

你可能想看看Reynar和Ratnaparkhi的论文A Maximum Entropy Approach to Identifying Sentence Boundaries（1997）。

<强>抽象

我们提出了一种可训练的识别模型原始文本中的句子边界。特定用句子边界注释的语料库，我们的模型学会对每个事件进行分类。，？和/作为有效或无效句子边界。培训程序不需要手工制作的规则，lexica，词性标签或特定领域信息。因此，该模型可以对任何类型的英语都很容易训练应该可以训练任何其他Romanalphabet 语言。性能可比达到或优于表现类似的系统，但我们强调简单重新培训新域名。

他们生成的句子分段符称为 MxTerminator ，可用here。

Answer 2

在语言学期刊上似乎有大量关于此的文献......

这是一个关于这个问题的好报告，希望它可以帮到你 http://repository.upenn.edu/cgi/viewcontent.cgi?article=1068&context=ircs_reports

尼科

基于拉丁语的语言分割语法规则

2 个答案: