Question

我想要做的是：

输入：维基百科xml转储

输出：这样的三元组列表：

<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/C_(programming_language)> .

<http://dbpedia.org/resource/Lists_of_computer_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Java_(programming_language)> .

...

..

.

<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/AdsML> .

<http://dbpedia.org/resource/List_of_XML_markup_languages> <http://dbpedia.org/ontology/wikiListOf> <http://dbpedia.org/resource/Agricultural_Ontology_Service> .

我们已经设置并定制了dbpedia提取框架，但我认为配置框架来提取这些数据是很困难的。令我震惊的是，提取框架没有任何提取器！

Answer 1

所有框架提取器都在文章名称或文章正文中查找特定的图案。如果您能够在列表页面中识别出任何其他文章中不存在的内容，那么它将能够创建一个......

否则您可以使用页面链接（页面之间的链接）并过滤所需的文章。这可能会给你你想要的东西（某种程度）

如何从维基百科中提取列表页面的数据？

1 个答案: