如何索引PyMongo中已知字段的未知字段?

时间:2018-12-22 02:16:12

标签: python mongodb indexing mongodb-query pymongo

我正试图在数百万条推文中找到唯一的单词,而且我想保留每个单词出现的位置。除此之外,我还将单词按首字母进行分组。这是示例代码:

from pymongo import UpdateOne
# connect to db stuff
for word in words: # this is actually not the real loop I've used but it fits for this example
    # assume tweet_id's and position is calculated here
    initial = word[0]
    ret = {"tweet_id": tweet_id, "pos": (beg, end)} # additional information about word
    command = UpdateOne({"initial": initial}, {"$inc": {"count": 1}, "$push": {"words.%s" % word: ret}}, upsert=True)
    commands.append(command)
    if len(commands) % 1000 == 0:
        db.tweet_words.bulk_write(commands, ordered=False)
        commands = []

但是,分析所有这些推文的方法很慢。我猜我出现问题是因为我没有在words字段上使用索引。

以下是文档的示例输出:

{
    initial: "t"
    count: 3,
    words: {
        "the": [{"tweet_id": <some-tweet-id>, "pos": (2, 5)}, 
                {"tweet_id": <some-other-tweet-id>, "pos": (9, 12)}]
        "turkish": [{"tweet_id": <some-tweet-id>, "pos": (5, 11)}]
    }
}

我尝试使用以下代码创建索引(未成功):

db.tweet_words.create_index([("words.$**", pymongo.TEXT)])

db.tweet_words.create_index([("words", pymongo.HASHED)])

我遇到了类似add index fails, too many indexes for twitter.tweet_wordskey too large to index的错误。有办法用索引做到这一点吗?还是应该改变我的方法来解决问题(也许重新设计数据库)?

1 个答案:

答案 0 :(得分:1)

要建立索引,您需要将动态数据保留在对象的值中,而不是键中。因此,我建议您重新设计架构,使其看起来像这样:

{
    initial: "t"
    count: 3,
    words: [
        {value: "the", tweets: [{"tweet_id": <some-tweet-id>, "pos": (2, 5)}, 
                                {"tweet_id": <some-other-tweet-id>, "pos": (9, 12)}]},
        {value: "turkish", tweets: [{"tweet_id": <some-tweet-id>, "pos": (5, 11)}]}
    ]
}

然后您可以将其索引为:

db.tweet_words.create_index([("words.value", pymongo.TEXT)])