我正在使用Python 3.6,Pymongo 3.3.0和MongoDB 2.6.12版。 我是Python和MongoDB的初学者,如果答案看起来很明显,那就很抱歉。
我缺乏构建某种数据处理管道的一般概念,以便用pymongo转换MongoDB集合。 我有一个大约800000个文档的集合,看起来像这样:
{'_id': ObjectId('some_id'),
'accession': 'an_integer',
'cik': 'another_integer',
'filing_date': datetime.datetime(some_date),
'item': 'some_string'}
现在我想构建某种管道,它只使用nltk模块中的一些工具处理每个文档的字段'item'中的字符串(删除停用词,词干等)并将这些处理过的文档写入新的集合中。如果我没有弄错,MongoDB中的聚合框架只支持使用其预定义的命令,所以我不能使用它?
我只是不知道从哪里开始,所以我感谢任何帮助。 (我知道如何将nltk方法应用于在Python中存储为变量的单个字符串,但我不知道如何将其应用于整个集合。) 提前谢谢。