如何从维基百科中提取列表页面的数据?

时间:2011-02-03 10:32:34

标签: scala rdf wikipedia semantic-web dbpedia

我想要做的是:

输入:维基百科xml转储

输出:这样的三元组列表:

<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/C_(programming_language)> .

<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Java_(programming_language)> .

...

..

.

<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/AdsML> .

<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Agricultural_Ontology_Service> .

我们已经设置并定制了dbpedia提取框架,但我认为配置框架来提取这些数据是很困难的。令我震惊的是,提取框架没有任何提取器!

1 个答案:

答案 0 :(得分:3)

所有框架提取器都在文章名称或文章正文中查找特定的图案。如果您能够在列表页面中识别出任何其他文章中不存在的内容,那么它将能够创建一个......

否则您可以使用页面链接(页面之间的链接)并过滤所需的文章。这可能会给你你想要的东西(某种程度)