我想要做的是:
输入:维基百科xml转储
输出:这样的三元组列表:
<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/C_(programming_language)> .
<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Java_(programming_language)> .
...
..
.
<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/AdsML> .
<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Agricultural_Ontology_Service> .
我们已经设置并定制了dbpedia提取框架,但我认为配置框架来提取这些数据是很困难的。令我震惊的是,提取框架没有任何提取器!
答案 0 :(得分:3)
所有框架提取器都在文章名称或文章正文中查找特定的图案。如果您能够在列表页面中识别出任何其他文章中不存在的内容,那么它将能够创建一个......
否则您可以使用页面链接(页面之间的链接)并过滤所需的文章。这可能会给你你想要的东西(某种程度)