分段规则交换文件

时间:2014-08-20 13:48:27

标签: xml regex nlp text-segmentation languagetool

我正在从事句子分割项目,我正在搜索有关句子拆分的SRX文件(分段规则交换)。 我试图找到srx(分段规则交换)文件,用于英语,法语,德语,西班牙语,意大利语的句子分割。但我失败了:(

是否有任何机构可以帮助我,因为我不想花时间写这些文件?

这是此文件的一个示例:

<languagerule languagerulename="English">
<rule break="no">
<beforebreak>\b[nN]o\.\s</beforebreak>
<afterbreak>\p{N}</afterbreak>
</rule>
<rule break="no">
<beforebreak>\b(pp|[Vv]iz|i\.?\s*e|[Vvol]|[Rr]col|maj|Lt|[Ff]ig|[Ff]igs|[Vv]iz|[Vv]ols|[Aa]pprox|[Ii]ncl|Pres|[Dd]ept|min|max|[Gg]ovt|lb|ft|c\.?\s*f|vs)\.\s</beforebreak>
<afterbreak>[^\p{Lu}]|I</afterbreak>
</rule>

1 个答案:

答案 0 :(得分:2)

LanguageTool在https://github.com/languagetool-org/languagetool/blob/master/languagetool-core/src/main/resources/org/languagetool/resource/segment.srx有一个涵盖这些语言的文件(免责声明:我是LanguageTool的作者)