我正在处理纯文本文档并识别文档中存在的大学/大学名称等实体。有时,这些名称以不同的格式书写,但它们指的是单个学院/大学名称。
实施例:
贾瓦哈拉尔尼赫鲁科技大学海得拉巴
J.N.T.U Hyderabad
JNTU海德拉巴
JNTU-H
贾瓦哈拉尔尼赫鲁科技大学(JNTU)海得拉巴
以上所有名称都指的是相同的大学名称。
我们如何将所有这些名称与单个学院/大学名称联系起来? (我正在寻找某种网络服务或谷歌搜索之类的东西,因为如果我搜索任何这些名称,它会返回相同的大学链接。)
答案 0 :(得分:0)
此任务命名为"实体链接"。有些系统致力于此,在大多数情况下,通过利用维基百科(特别是可能提及实体的重定向),例如Babelfy或DBpedia Spotlight。
这些服务依赖数据将提及链接到唯一标识符:如果它们可能提及您的实体,则它应该适用于大多数情况(但对于那些含糊不清的情况)。但在许多情况下,他们的词汇是不够的,你可能会面对未知的实体或提及。在这种情况下,您必须使用现有框架构建自己的系统,并为其提供相关的实体数据库及其提及。可以从全名自动生成缩略语。