查找网页主题

时间:2012-02-16 15:38:00

标签: web web-scraping rdf ontology

我有兴趣找到随机网页的主题或主题,并将其链接到RDF数据库(如dbpedia)中的实体。我想知道是否有任何工具/库可以做到这一点,或者是否有人曾尝试过这样的事情?

3 个答案:

答案 0 :(得分:1)

您实际上是一个命名实体识别工具。提供了许多免费和商业服务,例如Alchemy APIOpenCalaisLupediaZemanta。我的一些同事有blogged about他们对这些服务的经验。

对于链接部分,您通常会使用SilkLIMES等框架;很快将通过EC FP7项目LATC提供interlinking service in the cloud。免责声明:我是LATC项目协调员,Silk / LIMES是LATC联盟成员的产品。

答案 1 :(得分:1)

OpenLink Virtuoso已经通过其用于OpenCalais,Alchemy,Pingar和DBPedia Spotlight的Sponger(一个RDFizer)元匣执行此操作。即,您将它提供给一个页面,它向上述网站询问实体,它会根据已识别的实体为您提供三元组。

(免责声明:我应该知道。)

答案 2 :(得分:1)

查找网页主题可能最接近Automatic Summarization(请参阅同名维基百科页面)。用于其中的一个子任务是密钥短语提取(KE)。 KE将从输入文本返回与该文本项重要/突出/相关的子串(短语)。如果您假设命名实体通常是输入文本主题的关键,那么命名实体识别(NER)将是您想要的另一个可能的子任务。 NER将返回作为实体名称的子串,以及实体的类型。

根据您的描述,您正在寻找的不仅仅是KE或NER,因为您提到链接到知识库(KB),例如DBpedia。一个名为DBpedia Spotlight的工具就是这样做的。您可以将其配置为在输入文本中查找每个DBpedia资源,或仅查找关键短语,仅命名实体等。所有这些都在最终链接到DBpedia时。看看:http://spotlight.dbpedia.org

还有其他工具,如AlchemiAPI,Zemanta,WikiMachine,Evri,HeadUp,Enrycher等。但据我所知,DBpedia Spotlight是唯一一款免费的开源(Apache V2)并允许您配置短语识别和消歧的行为都一样。 (免责声明:我是DBpedia Spotlight的共同创建者)