用于解析可能的维基百科链接的文本的工具

时间:2009-03-11 21:01:47

标签: parsing hyperlink wikipedia

是否存在可以解析文本并输出该文本的工具,与感兴趣的单词的维基百科条目超链接?

例如,我想要一个可以变成类似的工具:

  

最受欢迎的搜索算法   排序列表是二进制搜索。

分为:

  

最受欢迎的search algorithm   sorted listbinary search

如果维基百科拥有能够做到这一点的API,那将是非常好的,因为他们最有能力确定“兴趣词”是什么。

在我的例子中,我简单地链接了直接链接到除The和most之外的所有条目的组合。

3 个答案:

答案 0 :(得分:1)

您需要解决两个不同的问题:

  1. 决定应链接哪些字词
  2. 确定是否有合适的条目将这些单词链接到
  3. 现在,(2)更简单,但它也有些问题。维基百科似乎有an API允许您有效地收集数据,并且它们也允许“屏幕抓取”。但是消除歧义有一个问题 - 有时候你可能会打不到你想要的条目。例如,python链接到消歧页面,因为它可以是编程语言,蛇和其他一些东西。

    (1)但是要困难得多。您可以采用“简单方法”并尝试查找所有非平凡名词(甚至是名词/形容词对)的链接。这里的非平凡意味着省略“恶魔,文字,计算机”等字样。 但这会导致过多的链接,这不方便阅读。由你自己来决定文本中有趣的内容,这很大程度上取决于文本本身。在专业程序员的文章中,您是否真的想每次链接到“搜索算法”?但对于初学者,也许你这样做。

    总而言之,我强烈怀疑有一个通用工具可以帮助你。但是你肯定拥有所有选项,而且需要特定的东西可以编写而不需要太多努力。

答案 1 :(得分:1)

Microsoft Research的Silviu Cucerzan解决了这个问题。好吧,不是插入链接的问题,而是确定在某段文本中提到哪些实体的一般问题。幸运的是,他使用维基百科文章作为他的实体集。他的论文“基于维基百科数据的大规模命名实体消歧”可在他的website上找到。直接链接:pdf

答案 2 :(得分:1)

有一种工具可以完全满足您的需求。 http://wikify.appointment.at/ 它并不完美,但它确实有效。