是否存在可以解析文本并输出该文本的工具,与感兴趣的单词的维基百科条目超链接?
例如,我想要一个可以变成类似的工具:
最受欢迎的搜索算法 排序列表是二进制搜索。
分为:
如果维基百科拥有能够做到这一点的API,那将是非常好的,因为他们最有能力确定“兴趣词”是什么。
在我的例子中,我简单地链接了直接链接到除The和most之外的所有条目的组合。
答案 0 :(得分:1)
您需要解决两个不同的问题:
现在,(2)更简单,但它也有些问题。维基百科似乎有an API允许您有效地收集数据,并且它们也允许“屏幕抓取”。但是消除歧义有一个问题 - 有时候你可能会打不到你想要的条目。例如,python链接到消歧页面,因为它可以是编程语言,蛇和其他一些东西。
(1)但是要困难得多。您可以采用“简单方法”并尝试查找所有非平凡名词(甚至是名词/形容词对)的链接。这里的非平凡意味着省略“恶魔,文字,计算机”等字样。 但这会导致过多的链接,这不方便阅读。由你自己来决定文本中有趣的内容,这很大程度上取决于文本本身。在专业程序员的文章中,您是否真的想每次链接到“搜索算法”?但对于初学者,也许你这样做。
总而言之,我强烈怀疑有一个通用工具可以帮助你。但是你肯定拥有所有选项,而且需要特定的东西可以编写而不需要太多努力。
答案 1 :(得分:1)
Microsoft Research的Silviu Cucerzan解决了这个问题。好吧,不是插入链接的问题,而是确定在某段文本中提到哪些实体的一般问题。幸运的是,他使用维基百科文章作为他的实体集。他的论文“基于维基百科数据的大规模命名实体消歧”可在他的website上找到。直接链接:pdf。
答案 2 :(得分:1)
有一种工具可以完全满足您的需求。 http://wikify.appointment.at/ 它并不完美,但它确实有效。