Neo4j,将文本数据存储在节点属性,文本分析和全文搜索要求

时间:2013-05-28 14:10:46

标签: nosql full-text-search neo4j graph-databases text-analysis

当需要进行文本分析时,是否可以将文本数据存储在图形节点中?

我有一个应用程序,涉及通过主题,作者,参考等相互链接的数千个文档。我想存储文档之间的链接,但也能够使用文本分析技术,文本分析文档的文本分析还需要分析所有节点上的文档文本以获得字数等。

目前我已经研究了一些数字,以寻求最佳/最实用的选项:

  1. 使用桥接表的关系数据库技术来管理关系信息(Con:SQL查询“遍历”关系将很困难)
  2. 使用图形数据库技术存储关系和文档信息(缺点:图形数据库不是文本存储和检索的最佳选择,担心尝试跨所有节点运行全文分析将很慢并且难以使用文本分析框架),
  3. 使用图形数据库存储关系,使用另一个例如CouchDB来存储文档信息(缺点:管理两个存储并使它们保持同步),
  4. 仅使用图形数据库存储关系并将文档存储在磁盘或HDFS等中进行分析。
  5. 其他?
  6. 有人可以建议这些中的一个或另一个是最好的实施方法吗?

    谢谢,

1 个答案:

答案 0 :(得分:1)

Neo4js默认索引提供程序(Lucene)可以进行一些文本分析。如果这还不够,那么3或4是最好的。

http://lucene.apache.org/