用Perl进行句子分割/标记化

时间:2015-07-12 18:38:49

标签: perl

我试图从大文本中标记/分割句子。 The University of Illinois提供了一个很好的Perl脚本,可以将文本分成句子,但我不知道它的准确性,我想我应该试一试。

我已经下载了脚本,命令行用法似乎有效,但它没有产生预期的结果。输入和输出文件保持不变,尽管其文档说该程序检查句子边界,程序输出是一个文本文件,其中每个文本行对应一个句子。

我是一名PHP开发人员,并不熟悉Perl脚本,因此任何具有Perl编程知识的人都可以找出问题所在吗?

这是我正在使用的命令行(我已将脚本重命名为boundary.pl

perl.exe boundary.pl -d HONORIFICS -i input.txt -o output.txt

1 个答案:

答案 0 :(得分:1)

有一个perl模块可以从广泛使用的CPAN库http://search.cpan.org/~kimryan/Lingua-EN-Sentence-0.29/lib/Lingua/EN/Sentence.pm执行此操作。您可以使用Perl附带的'cpan'命令行实用程序安装它。

您需要添加少量代码来创建拆分句子的输出,但概要会向您展示您需要的大部分内容。