噪声或ASR数据中的句子边界检测

时间:2014-09-22 11:46:21

标签: parsing nlp artificial-intelligence semantics stanford-nlp

有许多工具和论文可以使用基本句子分隔符执行此任务。

此类工具

  1. http://nlp.stanford.edu/software/tokenizer.shtml

  2. OpenNLP

  3. NLTK

  4. 可能还有其他的。他们主要关注

    (a) If it's a period, it ends a sentence.
    (b) If the preceding token is on my hand-compiled list of abbreviations, then it doesn't end a sentence.
    (c) If the next token is capitalized, then it ends a sentence. 
    

    很少有论文提出ASR文本中SBD的技术

    http://pdf.aminer.org/000/041/703/experiments_on_sentence_boundary_detection.pdf

    http://www.icsd.aegean.gr/lecturers/kavallieratou/publications_files/icpr_2000.pdf

    http://www.icsd.aegean.gr/lecturers/kavallieratou/publications_files/icpr_2000.pdf

    是否有任何工具可以对模糊句子执行句子检测,例如

    1. 约翰是演员,他的父亲史密斯先生是西北地区的顶级城市医生(2句话)

    2. 自由女神像在哪里,它的高度是什么?背后的历史是什么? (3句)

1 个答案:

答案 0 :(得分:2)

您要做的是确定compound sentence中的独立条款。复合句是由coordinating conjunction加上至少两个独立子句的句子。没有现成的工具,但您可以使用constituency parse trees来高精度地识别复合句子。

但要小心。 Sligh语法错误会产生一个非常错误的解析树!例如,如果您在第一个示例中使用Berkeley解析器(演示页:http://tomato.banatao.berkeley.edu:8080/parser/parser.html),则解析树不是您所期望的,而是将其更正为" John an 演员和他的父亲......",你可以看到解析树整齐划分为S CC S结构:

The Berkeley Parser's output on the first sentence

现在,您只需将每个句子标签S作为一个独立的条款!

我担心,问题处理得不好,你可以查看你的第二个例子。