Question

我在mongo DB中具有以下数据模式，该数据库包含一个文档集。

我有以下2个收藏集：

词典集合，该词典还嵌入单词出现的文档ID列表。这样做是为了使您可以轻松地从选定的单词（基于频率，停用词等）中过滤文本的语料库

字典如下：

{
    "_id" : "executive",
    "key" : 1,
    "doc_ids" : {
        "108" : {},
        "109" : {},
        "110" : {},
        "111" : {},
        "112" : {},
        "115" : {},...
},...

文档集合存储为一袋单词（每个单词表示为一个键：频率元组）

文档如下所示：

{
    "_id" : 108,
    "doc" : [ 
        [ 
            1, 
            1
        ], 
        [ 
            2, 
            1
        ], 
        [ 
            3, 
            1
        ],...
}

最初，我开始将字典ID中的doc ID列表存储为表格，但是正如某些帖子（例如here）所述，不断增长的数组很昂贵。这是我的情况，因为每次我处理新文档时，都会将其ID添加到字典中的现有单词中。这就是为什么我用嵌套的空子文档替换此数组的原因。

问题是更新现有单词时不会提高性能。

还有另一种方法来构造数据来规避此问题吗？

谢谢

这是过滤单词袋语料库的最佳mongodb模式吗？

0 个答案: