用于一次性处理和大数据转换的工具

时间:2012-11-14 11:34:13

标签: multicore data-processing format-conversion

我即将开始一项需要大量数据转换和处理操作的研究项目。一方面,数据相当庞大 - 原始数据集通常为10GB - 因此效率是一个问题。另一方面,许多这些操作将是一次性的,很少重新运行,因此构建可部署的应用程序是一种过度杀伤力。 不是用户应用程序,但主要是实验。

一些特征和限制:

  1. 许多链式格式转换 - JSON和XML到表格格式,然后是一些修补,然后是文本索引,然后导出到其他格式等等。
  2. 我有一台多核机器,但不是几台机器,至少要开始使用。
  3. 数据在主内存中并不合适,根据我的经验,需要利用多个内核。
  4. 处理此类项目的推荐工具有哪些?我的偏好是:

    1. 尽可能轻松处理多种格式(JSON,XML,CSV)
    2. 支持多个来源和接收器(文本文件,存档,数据库)
    3. 使用多核
    4. 尽可能少的管理,部署问题等。
    5. 编程语言不是问题,我可以管理Windows或Linux。谢谢!

0 个答案:

没有答案