很容易开发基于手动/正则表达式的算法,将文本分成句子。但忽略语义最终会在处理大量文本时导致解析错误。
我正在寻找企业级解决方案,它也可以分析语义并提供准确的结果。
目标语言是EN。
答案 0 :(得分:1)
Nltk就能提供良好可靠的结果。 另外还应考虑Apaches open NLP。
答案 1 :(得分:1)
我对README of my sentence segmentation Ruby gem或page中可以找到的不同句子分割工具的准确性做了一些分析。大多数人都注意到每种工具的编程语言。我还没有遇到过用PHP编写的任何分段工具。我的猜测是,如果你想要一个企业解决方案,你需要从另一种编程语言中移植一个工具(或找到已有的人)。
句子分词工具: