有许多工具和论文可以使用基本句子分隔符执行此任务。
此类工具
OpenNLP
NLTK
可能还有其他的。他们主要关注
(a) If it's a period, it ends a sentence.
(b) If the preceding token is on my hand-compiled list of abbreviations, then it doesn't end a sentence.
(c) If the next token is capitalized, then it ends a sentence.
很少有论文提出ASR文本中SBD的技术
http://pdf.aminer.org/000/041/703/experiments_on_sentence_boundary_detection.pdf
http://www.icsd.aegean.gr/lecturers/kavallieratou/publications_files/icpr_2000.pdf
http://www.icsd.aegean.gr/lecturers/kavallieratou/publications_files/icpr_2000.pdf
是否有任何工具可以对模糊句子执行句子检测,例如
约翰是演员,他的父亲史密斯先生是西北地区的顶级城市医生(2句话)
自由女神像在哪里,它的高度是什么?背后的历史是什么? (3句)
答案 0 :(得分:2)
您要做的是确定compound sentence中的独立条款。复合句是由coordinating conjunction加上至少两个独立子句的句子。没有现成的工具,但您可以使用constituency parse trees来高精度地识别复合句子。
但要小心。 Sligh语法错误会产生一个非常错误的解析树!例如,如果您在第一个示例中使用Berkeley解析器(演示页:http://tomato.banatao.berkeley.edu:8080/parser/parser.html),则解析树不是您所期望的,而是将其更正为" John an 演员和他的父亲......",你可以看到解析树整齐划分为S CC S
结构:
现在,您只需将每个句子标签S
作为一个独立的条款!
我担心,问题处理得不好,你可以查看你的第二个例子。