如何使用图形数据库关联单词索引和文档

时间:2014-06-27 21:03:55

标签: database text graph documents

我看到一些教程涉及将数据导入{Neo4j,titan,...}图形数据库。我对如何将其应用到我们的学术项目有一些疑问。

在这种情况下,我们有一组pdf和Microsoft Word格式的文档(目前不是那么重要),我们希望通过全局主题将其关联起来。在这种情况下,使用{Neo4j,titan,...}可以很容易地看到解决方案;但是,还有另一个案例,我认为这个案例有点特别。文档中存在的一些概念必须在图中相关。在这种情况下,我们已经确定了这样的概念,几乎总是由多字词表示(例如“人工神经网络”),我们希望将它们作为一组文档在文档中关联,并且可以进行查询。文档中使用任何查询术语的任何上下文(一致性)。

当前最后一项任务(一致性)是通过使用关系数据库来完成的,但我们希望将所有任务集中到一个唯一的数据库中,我们认为该数据库必须是图形数据库{Neo4j,titan,...}。

我们希望对您如何将我们的问题适应{Neo4j,titan,...}图表数据库提出一些指导。也许有关类似示例的文档(如果存在),关于导入数据结构的可能方式的一般视图......你知道。

好吧,我希望不要那么暧昧。 非常感谢你。

1 个答案:

答案 0 :(得分:0)

问题仍然有点广泛,但我会尝试快速回答我的理解。

您可以通过简单的方式开始“架构”(或图表的结构):

  • 为多字词术语创建节点
  • 为文档创建节点
  • 每次有一致性,您都可以在两个相应的目标(术语,文档)之间创建链接。

我建议在继续处理/导入之前以单一格式规范化所有数据:通用格式通常是CSV,但您也可以查看GraphML(由graphDB广泛支持) )或GraphSON

如果您想浏览图表的某些“架构”,请查看Neo4J gist collection:这是一个广泛的集合,可用于激发您的结构的各种主题。