Question

我正在尝试解析和匹配许多法律文本，将其全部拆分成单个句子。我有以下正则表达式，只适用于几行简单的文本就可以了：

[^\.\!\?\;\n]*[\.\!\?\;\n](\s+)

！和？或在这里毫无吸引力。和;因为分隔符在我尝试使用的文本中很常见。问题是上面的正则表达式只是找到那些分隔符，后跟一个空格字符。例如，以下文本将不正确匹配：

州法律或与卫生专业人员签订的合同并遵守本段所述的条件和保障措施 3;出于该地区公共利益的考虑，有必要进行加工公共卫生，例如防止严重越境对健康的威胁或确保在 https://ec.europa.eu/ploteus/en/compare通过了7个可比程序（例如认证/审核），并按要求进行注册由成员国。卫生保健的质量和安全药品或医疗器械，基于工会或会员国家法律，该法律规定了适当且具体的措施维护数据主体的权利和自由，尤其是专业保密；正在处理...

以下整个部分：

出于公共利益的考虑，
处理是必要的公共卫生，例如防范严重的跨境威胁健康或确保高标准的比较工具 https://ec.europa。

根本不会匹配。

在改进上述正则表达式方面的任何帮助将不胜感激！

谢谢

Answer 1

我认为您想要的名称是句子标记器。对于Go，我可以推荐一个库：github.com/jdkato/prose，它应该像个魅力一样工作。

我个人从未使用过。祝你好运！

正则表达式在点号|分号处分割，但忽略URL

1 个答案: