语义相关的数据集

时间:2012-08-04 18:38:22

标签: dataset semantic-web

我需要某种具有相关项目的数据集。例如,flower具有相关的子类型:rosesviolets等。每个子类型都有自己的子类型。这可以是在语义搜索引擎等中使用的相关项的图表。

是否有任何地方有这样的数据集(最好有图像)?

2 个答案:

答案 0 :(得分:2)

Wordnet将是一个良好的开端。 您可以免费从here获取。

Conceptnet是另一个伟大的本体论。它的质量较低,但概念数量更多。 这是flower

的Conceptnet页面

我建议退房的第三个来源是维基百科的跨文章链接。

答案 1 :(得分:1)

在Sagie上面提到的维基百科上展开,DBPedia是一个将维基百科的结构化数据提取到数据集中的项目。他们提到他们的数据集有377万件“东西”和4亿件事实。还有不同语言的本地化信息:

  

完整的DBpedia数据集包含10.3的标签和摘要   百万种独特的东西,多达111种不同的语言; 800万   链接到图像和2440万HTML链接到外部网页;   2720万个数据链接到外部RDF数据集,5580万个链接到维基百科类别,820万个YAGO类别。该   数据集包含18.9亿条信息(RDF三元组)   其中4亿是从英文版中提取出来的   维基百科,14.6亿是从其他语言版本中提取的,   大约2700万是与外部RDF数据集的数据链接。

他们的数据集可通过SPARQL查询。 An example they give适用于人口超过200万的前20个城市:

SELECT ?subject ?population WHERE {
?subject rdf:type <http://dbpedia.org/ontology/City>.
?subject <http://dbpedia.org/ontology/populationUrban> ?population.
FILTER (xsd:integer(?population) > 2000000)
}
ORDER BY DESC(xsd:integer(?population))
LIMIT 20