标签: python mysql mongodb data-processing
我必须加载大量数据(stackoverflow dump),处理它并为某些机器学习应用程序生成文件。
行动是......
我的约束是Python是我只能使用的语言,一切都应该在双核CPU(没有分布式系统)上运行。
我尝试使用mysql处理2100万条记录需要几天时间(我创建了大量的索引和聚合操作)。现在,我使用mongodb,它仍然需要很长时间。
有人可以建议我使用一些技术来加快速度(比如花费4/5小时)。