Freebase:在亚马逊上托管Freebase API

时间:2014-12-17 18:09:03

标签: semantic-web freebase

tutorial谈到在亚马逊上设置Freebase实例。当我按照这个过程时,我最终得到一个通过附加EBS的Freebase数据的实例。任何人都可以帮助我完成一个使用基础数据创建Freebase API的过程。

我认为,就像人们可以在Virtuoso上托管Dbpedia,其中Dbpedia作为API公开,应该有(假设)一种方式来托管Freebase。我没有找到一个谈论同样的资源。任何帮助将不胜感激!

谢谢

Ankit S

2 个答案:

答案 0 :(得分:3)

Virtuoso是一款软件。 Freebase是一个开源数据库/数据源,但提供Freebase API的软件不是开源的(或可用的),因此在没有重新实现软件的情况下,无法在Amazon上托管Freebase API。

如果要使用数据,最直接的方法可能是使用像Cayley或Neo4J这样的图形数据库或像Virtuoso这样的RDF数据库,然后使用SPARQL或图形DB API进行查询。

答案 1 :(得分:2)

我将freebase放入Solr / Lucene。它似乎特别好用。对象字段被克隆并标记化以进行良好的文本搜索。保留了另一个层次结构以进行完全匹配。把它放入8个核心。

我认为只有5种类型的三重要解析。

# <><><///...>.
# <><><///#>.
# <><>"".
# <><>""@x.
# <><>""^^<>.

从两边解析引号,这样你才能知道你在处理什么。我将三元组限制为32K字节。我将炉渣踢到gz文件中查看,如果有格式更改则重新添加。我检查它的格式是否正确。加载需要5天。 Solr使用Jetty,这是特别的;数据必须正确转义,没有&amp ;,大约20个三元组有ascii 0,11,..,你可能想要推入渣堆。由于Solr项目非常出色,它非常顺利。

关于解压缩的说明。我把它分成了100个文件。 Java就是这样,Ruby也是如此。你可以使用linux gunzip -c |管道到你的脚本。您可能无法在一个ruby或java程序中包含它。没找到原因。主持人khugepaged =坏。 200G的RAM,它使用100%的16个CPU消失了5分钟。