这是过滤单词袋语料库的最佳mongodb模式吗?

时间:2018-10-16 16:43:37

标签: mongodb dictionary schema corpus

我在mongo DB中具有以下数据模式,该数据库包含一个文档集。

我有以下2个收藏集:

  • 词典集合,该词典还嵌入单词出现的文档ID列表。这样做是为了使您可以轻松地从选定的单词(基于频率,停用词等)中过滤文本的语料库

字典如下:

{
    "_id" : "executive",
    "key" : 1,
    "doc_ids" : {
        "108" : {},
        "109" : {},
        "110" : {},
        "111" : {},
        "112" : {},
        "115" : {},...
},...
  • 文档集合存储为一袋单词(每个单词表示为一个键:频率元组)

文档如下所示:

{
    "_id" : 108,
    "doc" : [ 
        [ 
            1, 
            1
        ], 
        [ 
            2, 
            1
        ], 
        [ 
            3, 
            1
        ],...
}

最初,我开始将字典ID中的doc ID列表存储为表格,但是正如某些帖子(例如here)所述,不断增长的数组很昂贵。这是我的情况,因为每次我处理新文档时,都会将其ID添加到字典中的现有单词中。 这就是为什么我用嵌套的空子文档替换此数组的原因。

问题是更新现有单词时不会提高性能。

还有另一种方法来构造数据来规避此问题吗?

谢谢

0 个答案:

没有答案