如何自动检测首字母缩略词含义/扩展名

时间:2014-11-03 14:48:11

标签: nlp information-extraction acronym

如何使用NLP /信息提取(IE)方法检测/找出首字母缩略词的含义(扩展名)?

我们希望在自由文本中检测是否使用了单词或它的首字母缩略词并将其映射到同一个实体/令牌。

网上提供的大多数论文都是关于医学缩略语的,而且它们没有提供完成这项任务的库。

有什么想法吗?

2 个答案:

答案 0 :(得分:5)

阅读您的问题和评论我理解您要创建从首字母缩写词到其扩展名的映射。

假设您有一组文本文档,其首字母缩写词和扩展名都可以应用算法来提取(首字母缩写词,扩展名)对。

A.S Schwartz和M.A. Hearst的

A Simple Algorithm for Identifying Abbreviation Definitions in Biomedical Text通过观察模式来做到这一点。 Java实现可用here

我将此算法应用于英语维基百科,您可以看到结果here。我还将其应用于葡萄牙语新文章的集合,结果为here

答案 1 :(得分:0)

Wordnet包含大量单词的首字母缩写词,您可以在各种编程语言中使用它们:http://wordnet.princeton.edu/wordnet/

或者从Freebase获取。请参阅:What is one way to find related names using the web?