处理Collection的特定字段中的每个字符串

时间:2017-09-02 16:12:20

标签: python mongodb pymongo pipeline pymongo-3.x

我正在使用Python 3.6,Pymongo 3.3.0和MongoDB 2.6.12版。 我是Python和MongoDB的初学者,如果答案看起来很明显,那就很抱歉。

我缺乏构建某种数据处理管道的一般概念,以便用pymongo转换MongoDB集合。 我有一个大约800000个文档的集合,看起来像这样:

{'_id': ObjectId('some_id'), 
 'accession': 'an_integer',
 'cik':    'another_integer',
 'filing_date': datetime.datetime(some_date),
 'item': 'some_string'}

现在我想构建某种管道,它只使用nltk模块中的一些工具处理每个文档的字段'item'中的字符串(删除停用词,词干等)并将这些处理过的文档写入新的集合中。如果我没有弄错,MongoDB中的聚合框架只支持使用其预定义的命令,所以我不能使用它?

我只是不知道从哪里开始,所以我感谢任何帮助。 (我知道如何将nltk方法应用于在Python中存储为变量的单个字符串,但我不知道如何将其应用于整个集合。) 提前谢谢。

0 个答案:

没有答案