建议在单个节点系统上处理大量数据

时间:2015-06-02 20:24:22

标签: python mysql mongodb data-processing

我必须加载大量数据(stackoverflow dump),处理它并为某些机器学习应用程序生成文件。

行动是......

  1. 解析XML文件并将其加载到某个db(NoSql或SQL)。我使用SAX解析器。
  2. 执行一些操作,基本上按数据库分组(或聚合)。
  3. 然后生成CSV文件。 CSV文件生成是按需的。 10,000条记录的时间不得超过2分钟。
  4. 我的约束是Python是我只能使用的语言,一切都应该在双核CPU(没有分布式系统)上运行。

    我尝试使用mysql处理2100万条记录需要几天时间(我创建了大量的索引和聚合操作)。现在,我使用mongodb,它仍然需要很长时间。

    有人可以建议我使用一些技术来加快速度(比如花费4/5小时)。

0 个答案:

没有答案