从Ob告中提取死亡名称实体 - NLP

时间:2013-10-09 10:10:54

标签: nlp nltk stanford-nlp text-processing ner

我有一连串的广告,这是从一些报纸中提取的。广告可能会以如下所示的格式显示:我的任务是提取已故人员的姓名。

John, the small son of Mr. and Mrs.<br>
Elmer Cleppfer, died at their home in<br>
Lewistown on Wednesday. The funeral<br>
will He held on Saturday afternoon<br>
from the home of the grandparents<br>
on the child, Mr. and Mrs. John<br>
Kiopper, 224 Locust street, tortiorrow<br>
afternoon at 2 o'clock. Interment witt<br>
take place at Oberlin.<br>

Mrs. Lydia Mintch, aged 6S years <br>
died yesterday afternoon at the home<br>
of Fred Flowerfleld at Enhaut. Mrs.<br>
Mlnlch contracted a severe attack of<br>
pneumonia aggravated by other illness<br>
Several days ago which resulted in her<br>
death. Funeral arrangements have not<br>
yet been completed.<br>

整个段落由2个广告组成。如果有超过1个这样的广告,任何人都可以告诉我如何将这类文本分类成段落吗?

2 个答案:

答案 0 :(得分:0)

Stanford Parser是你的选择。

  1. 首先只提取包含死亡,减少或这些术语的内容的句子。
  2. 使用Stanford Parser为这些句子生成折叠类型的依赖项。
  3. 你会发现一个模式,可以帮助你得到减少的人的名字。
  4.   

    我故意不放弃你应该放的模式   在你的努力中也是如此。

答案 1 :(得分:0)

以下是我如何处理这个问题。

  1. 获得句子POS标记。
  2. 对于每个句子,深度解析并创建主语 - 动词 - 对象模型。 (从左到右解析)。
  3. 动词指向死亡的地方,主体是死人。