将冗余数据存储在索引中或者有两个索引然后交叉引用它们会更好吗?即,用户想在剧院看电影。
由于用户有兴趣通过影院查看电影,我们可以使用电影nested_type制作影院索引:
// Here, movies field will be a Nested Type, not Object Type.
eclient.index({
index: 'myindex',
type: 'theater',
id: 1,
body: {
name: "Grand Cinema",
description: "Come watch movies!",
movies: [
{
title: "Red November",
description: "A submarine hunt",
rated: "R",
score: 10.0
},
{
title: "Cinderbrella",
description: "A burnt umbrella",
rated: "PG",
score: 8.8
}
]
}
});
由于数据在影院上非规范化,因此可以轻松地按剧院显示短片列表。
我们还可以拥有一个电影索引,其中包含有关电影的更多详细信息:
eclient.index({
index: 'myindex',
type: 'movie',
id: 1,
body: {
title: "Red November",
description: "A submarine hunt",
rated: "R",
score: 10.0,
actors: ["Bob", "Alice", "Carol"],
// other details...
}
});
因此,当用户点击电影以获取更多信息时,我可以查询电影索引并获取其详细信息(即演员)。
正如您所看到的,剧院拥有大量冗余数据。如果电影获得更新的字段,它还会使重新索引变得很痛苦。重新索引将有两个地方:剧院索引中的电影和电影索引本身。即,电影获得更新的分数。
我想我可以改变它,以便影院索引拥有一堆电影ID,并且电影中有一堆戏剧ID:
// theater index
type: 'theater',
id: 1,
body: {
name: ...
description: ...
movies: [ 1, 2 ]
}
// movie index
type: 'movie',
id: 1,
body: {
title: ...
description: ...
theaters: [ 1, 2, 3]
}
但在这种情况下,我如何有效地查询剧院的电影信息?我将不得不获取电影ID,然后在电影索引上逐个查询它们,以获得一些有限的电影信息显示在影院页面上。但是,如果一个字段在特定电影上发生变化,那么重新索引的工作就会少得多。
哪种解决方案更好?我更倾向于考虑后者,因为即使电影很少改变其数据,重新索引持有该特定电影的每个影院并重新索引电影索引本身也可能是计算能力的巨大浪费(瓶颈?)。
第三个解决方案是让影院保持电影ID,然后只在这些ID上查询Postgres数据库。虽然这可能比通过电影索引单独查询它们要慢一些?
答案 0 :(得分:2)
您正在寻找的是父子关系类型。
在相同索引下,您可以将一种类型定义为另一种类型的父级。 在这种情况下,您可以将所有电影文档保存在影院类型的电影类型和影院文档中。 这种方法的优点是
您可以找到有关父子here
的更多信息父子关系优于嵌套文档的优点