交叉引用多个多对多关系。我应该选择哪个数据库?

时间:2013-09-19 13:11:15

标签: database architecture nosql neo4j google-cloud-datastore

我打算建立一个在线内容平台。 该系统基本上有两种权利:内容和标签。 标签以多对多的方式与内容相关。

如果我使用SQL数据库,它将被建模为:

内容1 ----- * TC * ----- 1 TAG

鉴于此模型,我需要进行如下查询:

1)按ID

获取内容

2)通过一个标签获取内容 - “列出所有MATH *内容”

(*)MATH是一个标签

3)通过多个标签获取内容 - “列出所有HARD * MATH *内容”

4)按内容属性过滤上述数据: - “列出上周创建的所有HARD * MATH *内容”

1和2几乎不是问题,但我相信3和4可能会变得棘手。

在关系世界中,对于查询(4),我可以从CONTENT开始并多次加入TC,如下所示:

select distinct(c.*) from CONTENT c, TC tc1, TC tc2
where tc1.content_id = c.id
and tc2.content_id = c.id
and tc1.id = <math_tag_id>
and tc2.id = <hard_tag_id>
and c.creation_date > <last_week>

但是我不确定这会在以下情况下很好地扩展:      - TC有很多数据      - 我需要查询4到8个标记的交集

对此有何看法?

在noSQL世界中,我目前使用的唯一数据库是BigTable。 据我所知,BigTable可能不是解决这个问题的最佳选择。 如果我使用相同的“表格”,对于(3)我可能会喜欢(假设ndb + python)

tcs = TC.query(
    TC.tag_key.IN([math_tag_key, hard_tag_key])
).fetch()
content_keys = [tc.content_key for tc in tcs]
distinct_content_keys = set(content_keys) //eliminate repeated values
contents = ndb.get_multi(distinct_content_keys)

但是,

  • TC.tag_key.IN收到4到8个标签时,我不知道这会有多好(对此有什么看法?
  • 我无法进行查询(4),因为我无法加入CONTENT(BigTable不会加入)。替代方案是在TC中复制CONTENT的属性,这是一个PITA。 (在BigTable中有更好的方法吗?

所以,这里更大的问题是:什么数据库最好地解决了这个问题? 我倾向于研究Graph数据库以了解它们如何解决这个问题,但我认为我需要一些专家意见。

图表数据库真的是要走的路吗? Neo4J是最好的选择吗?

1 个答案:

答案 0 :(得分:3)

与关系数据库相比,图表数据库擅长的领域之一是您描述的问题类型。如果关系数据库世界中的答案导致许多连接(其中许多连接可能依赖于数据库,但可能在8开始出现问题,当然是16开始),那么您应该查看图形数据库。

除了Neo4J之外,您可能还想看看Titan,无论哪种方式,您都可以查看是否需要Blueprints或Spring之类的东西来帮助您将其与实施细节区分开来(尽管如果您可能会带来其他问题)真的需要高性能)。