如何在维基百科消歧页面中获取所有方法?

时间:2012-03-06 05:57:09

标签: wikipedia

我尝试在我的项目中使用JWPL API。我需要在某个消歧页面中获取所有方法。例如,关于Apple的消歧页面。

如果你能告诉我一些事情,我将不胜感激!

1 个答案:

答案 0 :(得分:2)

我不知道您是否仍然需要和回答但简而言之,如果您想收集给定单词的所有可能含义,请不要使用消除歧义的页面。 为什么?因为它们格式不正确,并且通常包含许多与单词的某个含义不对应的链接。即使您只解析以*开头的第一行并收集该行中的第一个链接,您仍然会得到错误的结果。 相反,您应该收集维基百科中的所有链接,并将其锚文本存储为关键字,并将目标文章存储为该关键字的可能含义。作为副作用,您可以获得关于单词与某个含义相对应的频率的统计数据。可能意义的另一个资源是重定向页面和文章标题。例如:您可以收集具有相同实体但消歧部分不同的所有文章,并将其用作该实体的可能含义。

如果您想在评论中回答更详细的解释,我还可以提供一些关于如何收集和索引的代码,其中包含维基百科中包含的所有重定向,实体和链接文本的可能含义。