我需要使用PHP / Javascript使用fullstops来分割文本。问题是如果我使用“。”分割文本然后缩写,日期格式(12.03.2010)或网址以及拆分,我需要防止。有许多这样的可能性,我可能无法想象。 如何认识到“。”用作fullstop而没有别的?
当我用谷歌搜索我发现SRX http://www.lisa.org/fileadmin/standards/srx20.html时,是否有使用这些规则的开源PHP项目段文本?
我可以使用任何基于Linux的命令行实用程序,除非它没有付费。
此问题涉及使用点(。)打破段的情况,因为它被视为Fullstop.We需要区分点(。)和Fullstop
案件在哪里。不是满员:
http://www.yahoo.com'>这是一个很好的链接。我喜欢它
- 只有一个有效的续航这是一个测试案例。让我们试试它没有有效的fullstop
http://www.yahoo.com'>测试由amold12 @ ...完成。 - 没有有效的续航
先生。 Abc今天在城里 - 没有有效的续航
至于代码 - 我使用的是javascript text.split(“。”)方法
由于
答案 0 :(得分:0)
人类语言很古怪。无论你提出什么规则,一些角落案件都可能会打败你。你100%准确有多重要?错过偶尔的完全停止真的很重要吗?或者说太过激进真的很重要。如果您的目标是(例如)对出版材料中的发送长度进行一些统计分析,那么我怀疑一些过高或过低的数据是至关重要的。
我的建议是寻找
等模式full-stop space(s) Capital letter
full-stop quote
full-stop new line
在示例文本中运行它,看看还有什么异常。
你真诚的,David J. N. Artus。 (还不是一个完整的作品,因为我没有以这种方式使用。而之前的。也不是。但最后一次。是。