我目前正在为应用程序选择一个NOSQL数据库,该数据库将大量电子邮件存储到给定主题(=邮件列表)。每个人都有大量的电子邮件。作为这个领域的业余爱好者,我不知道我是否应该选择基于Document的MongoDb或Graph oriented Neo4j。它更像是写一次,读多种类型。
Neo4j的事实: 电子邮件基本上是图表。每封电子邮件都是一个节点,一个回复另一个(=边缘)。 2.图表可能非常深,一封电子邮件可以有很多响应。 3.可能需要在图表中重新排序一些电子邮件(如果真的需要,则清理排序)。
MongoDb的事实: 1.有时用户可能想要搜索一些基于参数的查询。例如来自用户X的所有电子邮件。 电子邮件可能很大。 3.文件看起来要简单得多。
我不知道属于哪个事实: 有时搜索父母并检查,电子邮件从哪里复制文本(电子邮件回复的具体文本)。
有人可以帮帮我吗?
编辑:无论如何,我也对其他nosql数据库开放。
答案 0 :(得分:2)
也许这篇博文可以帮助您做出决定:http://soloso.blogspot.com/2011/07/getting-enron-mail-database-into.html
请注意最底部的附录区域 - @rit在原始代码上展开并在S3上托管语料库。
这应该会让你在MongoDB环境中进行相当多的实验。
布赖恩