我试图从大文本中标记/分割句子。 The University of Illinois提供了一个很好的Perl脚本,可以将文本分成句子,但我不知道它的准确性,我想我应该试一试。
我已经下载了脚本,命令行用法似乎有效,但它没有产生预期的结果。输入和输出文件保持不变,尽管其文档说该程序检查句子边界,程序输出是一个文本文件,其中每个文本行对应一个句子。
我是一名PHP开发人员,并不熟悉Perl脚本,因此任何具有Perl编程知识的人都可以找出问题所在吗?
这是我正在使用的命令行(我已将脚本重命名为boundary.pl
)
perl.exe boundary.pl -d HONORIFICS -i input.txt -o output.txt
答案 0 :(得分:1)
有一个perl模块可以从广泛使用的CPAN库http://search.cpan.org/~kimryan/Lingua-EN-Sentence-0.29/lib/Lingua/EN/Sentence.pm执行此操作。您可以使用Perl附带的'cpan'命令行实用程序安装它。
您需要添加少量代码来创建拆分句子的输出,但概要会向您展示您需要的大部分内容。