从维基百科信息框获取所有属性(java)

时间:2011-12-07 18:07:14

标签: java wikipedia sparql jena dbpedia

我希望从维基百科页面获取所有信息框属性和值(仅包含信息框的信息)。 使用简单的WebRequest解析信息框会给我太多的垃圾。因此,我考虑使用dbpedia并使用Jena(SPARQL)获取数据。 我怎样才能做到这一点?是否有一个简单的查询,将所有属性作为键值对?或RDF,然后将其转换为我需要的。

2 个答案:

答案 0 :(得分:0)

您可以使用http://dbpedia.org/sparql上的dbpedia的公共SPARQL端点 实验。在http://wiki.dbpedia.org/OnlineAccess中描述了用于构建查询的示例和各种其他工具。您还可以下载数据集以在本地尝试查询。

为了澄清,RDF是dbpedia发布的数据格式.SPARQL是查询RDF的查询语言。 Jena是一个特定的实现,包括RDF数据存储区和SPARQL引擎。

答案 1 :(得分:0)

尝试使用http://wiki.dbpedia.org/Downloads37中的转储。 例如“Raw Infobox Properties”。