使用句号分段文本

时间:2010-05-03 05:45:52

标签: php javascript

我需要使用PHP / Javascript使用fullstops来分割文本。问题是如果我使用“。”分割文本然后缩写,日期格式(12.03.2010)或网址以及拆分,我需要防止。有许多这样的可能性,我可能无法想象。 如何认识到“。”用作fullstop而没有别的?

当我用谷歌搜索我发现SRX http://www.lisa.org/fileadmin/standards/srx20.html时,是否有使用这些规则的开源PHP项目段文本?

我可以使用任何基于Linux的命令行实用程序,除非它没有付费。

此问题涉及使用点(。)打破段的情况,因为它被视为Fullstop.We需要区分点(。)和Fullstop

案件在哪里。不是满员:

  1. http://www.yahoo.com'>这是一个很好的链接。我喜欢它

    - 只有一个有效的续航
  2. 这是一个测试案例。让我们试试它没有有效的fullstop

    http://www.yahoo.com'>测试由amold12 @ ...完成。 - 没有有效的续航

  3. 先生。 Abc今天在城里 - 没有有效的续航

  4. S上。汗已经做到了 - 没有有效的全程
  5. 美国正在摆脱经济衰退。 - 没有有效的fullstop
  6. 至于代码 - 我使用的是javascript text.split(“。”)方法

    由于

1 个答案:

答案 0 :(得分:0)

人类语言很古怪。无论你提出什么规则,一些角落案件都可能会打败你。你100%准确有多重要?错过偶尔的完全停止真的很重要吗?或者说太过激进真的很重要。如果您的目标是(例如)对出版材料中的发送长度进行一些统计分析,那么我怀疑一些过高或过低的数据是至关重要的。

我的建议是寻找

等模式
full-stop space(s) Capital letter
full-stop quote
full-stop new line

在示例文本中运行它,看看还有什么异常。

你真诚的,David J. N. Artus。 (还不是一个完整的作品,因为我没有以这种方式使用。而之前的。也不是。但最后一次。是。