我们知道实体有不同的外观,例如,“巴拉克奥巴马”可能被称为“奥巴马”,“总统”和“巴拉克侯赛因奥巴马”。 是否有任何算法可以确定三者是否指的是同一个实体“Barack Obama”?
谢谢!
编辑1:
我会提供有关我案件的更多细节。我想要做的是在Twitter中连接不同的实体名称。
如果我发送包含“Barack Obama”的推文,一段时间后我发送另一条包含“总统”的推文,但没有“Barack Obama”,那么我的系统应该可以将两条推文连在一起,因为当我谈到“Barack Obama”和“总统”在两条推文中,我显然是指同一个实体。
答案 0 :(得分:0)
Latent semantic analysis是您可能希望尝试的一种方法。
或者,主题模型的非参数扩展(例如Latent Dirichlet Allocation)可能有效。
答案 1 :(得分:0)
您的问题的难度完全包含在句子“显然意味着同一个实体”中,并且您面临众所周知(并且非常困难)框架问题。 如果你把它变成概率,你会发现总统与奥巴马有关的问题在很大程度上取决于背景。
我建议查看隐马尔可夫链(谷歌如此)来捕捉问题的背景性质。