我目前正在做一个关于人名消歧的项目。项目背后的想法是,当有多个同名的人时,它将能够识别出正确的人。我已经使用了维基百科。我想在一些标准数据上评估我的项目。我正在寻找一些测试数据。我不熟悉维基百科中的流行名字。任何想法,我可以在哪里找到这些数据?我不是在寻找大量的数据。我只是在寻找100-500个例子。
谢谢
在问题中添加更多信息。
我正在寻找的是具有相同名称但实际上不同的人。对于前者,迈克尔乔登是一位着名的篮球运动员,并且还有一名具有该名称的统计学家。我正在寻找这样的例子。
http://en.wikipedia.org/wiki/Michael_Jordan http://en.wikipedia.org/wiki/Michael_I._Jordan
希望你现在明白这个问题。
答案 0 :(得分:2)
测试数据集:
祝你好运!答案 1 :(得分:0)
想知道为什么不能在SO用户上使用这些名称:https://stackoverflow.com/users?tab=reputation
它已按代表排名 - 所以你知道“流行名字”。
答案 2 :(得分:0)
http://en.wikipedia.org/wiki/Category:Redirects_to_disambiguation_pages是维基百科上的大量消歧页面列表。从中链接的每个页面都包含不明确名称的页面链接。这就是你要找的东西吗?