如何在NLP框架中执行段落边界检测?

时间:2013-11-19 11:04:19

标签: nlp text-processing stanford-nlp opennlp apache-stanbol

我正在努力从英文报纸上出现的各种广告中提取人名。

但是,我注意到我需要在提取广告中存在的名称之前识别广告的边界,因为我只需要提取第一个出现的名称。我从斯坦福NLP开始。我成功地提取了名字。但我一直在确定段落边界。

有没有办法识别段落边界。 ?

2 个答案:

答案 0 :(得分:1)

这是一个难题,我们在其中一个项目中遇到了同样的问题。有一些理论论文有助于详细定义问题的范围和潜在的解决方案。我将它们包含在下面。

我们仍然处于研发过程中,所以我们还没有得到很多答案,但我们愿意分享我们所拥有的并随着时间的推移而发现。

这是一篇这样的论文:

Automatic Paragraph Identification: A Study across Languages and Domains

以下是他们使用的ISCIBoost代码的github链接:

Open-source implementation of Boostexter (Adaboost based classifier)

答案 1 :(得分:1)

令人惊讶的是,关于自动检测段落边界这一主题的研究很少。我发现了以下(除了profversaggi提供的论文),所有这些都很旧:

Sporleder 和 Lapata (2005):Broad coverage paragraph segmentation across languages and domains

Filippova 和 Strube (2006):Using Linguistically Motivated Features for Paragraph Boundary Identification

根泽尔 (2005) A Paragraph Boundary Detection System