我正在开发一项功能,即为拉丁语言(目前是英语)应用语言分词规则(语法)。
目前我处于打破用户输入句子的阶段。
e.g.:
"I am working in language translation". "I have used Google MT API for this"
在上面的例子中,我将完全停止句子(。)这是正常的情况,我在点上打破句子,但是有多个字符用于打破句子,如(。!?etc)。
我遵循SRX规则进行细分。
我的问题是: -
1)是否有任何参考?可用于解析我的语言细分规则。
2)或者是否有任何关于语言细分的论坛?,以便我能够有效地讨论
如果有人知道,请告诉我?
非常感谢。
答案 0 :(得分:1)
你可能想看看Reynar和Ratnaparkhi的论文A Maximum Entropy Approach to Identifying Sentence Boundaries(1997)。
<强>抽象强>
我们提出了一种可训练的识别模型 原始文本中的句子边界。特定 用句子边界注释的语料库, 我们的模型学会对每个事件进行分类 。,?和/作为有效或无效 句子边界。培训程序 不需要手工制作的规则,lexica, 词性标签或特定领域 信息。因此,该模型可以 对任何类型的英语都很容易训练 应该可以训练任何其他Romanalphabet 语言。性能可比 达到或优于表现 类似的系统,但我们强调简单 重新培训新域名。
他们生成的句子分段符称为 MxTerminator ,可用here。
答案 1 :(得分:0)
在语言学期刊上似乎有大量关于此的文献......
这是一个关于这个问题的好报告,希望它可以帮到你 http://repository.upenn.edu/cgi/viewcontent.cgi?article=1068&context=ircs_reports
尼科