我需要某种具有相关项目的数据集。例如,flower
具有相关的子类型:roses
,violets
等。每个子类型都有自己的子类型。这可以是在语义搜索引擎等中使用的相关项的图表。
是否有任何地方有这样的数据集(最好有图像)?
答案 0 :(得分:2)
Wordnet将是一个良好的开端。 您可以免费从here获取。
Conceptnet是另一个伟大的本体论。它的质量较低,但概念数量更多。 这是flower
的Conceptnet页面我建议退房的第三个来源是维基百科的跨文章链接。
答案 1 :(得分:1)
在Sagie上面提到的维基百科上展开,DBPedia是一个将维基百科的结构化数据提取到数据集中的项目。他们提到他们的数据集有377万件“东西”和4亿件事实。还有不同语言的本地化信息:
完整的DBpedia数据集包含10.3的标签和摘要 百万种独特的东西,多达111种不同的语言; 800万 链接到图像和2440万HTML链接到外部网页; 2720万个数据链接到外部RDF数据集,5580万个链接到维基百科类别,820万个YAGO类别。该 数据集包含18.9亿条信息(RDF三元组) 其中4亿是从英文版中提取出来的 维基百科,14.6亿是从其他语言版本中提取的, 大约2700万是与外部RDF数据集的数据链接。
他们的数据集可通过SPARQL查询。 An example they give适用于人口超过200万的前20个城市:
SELECT ?subject ?population WHERE {
?subject rdf:type <http://dbpedia.org/ontology/City>.
?subject <http://dbpedia.org/ontology/populationUrban> ?population.
FILTER (xsd:integer(?population) > 2000000)
}
ORDER BY DESC(xsd:integer(?population))
LIMIT 20