应用错误收集

声明

我是一家小型商店的系统管理员。

场合

我将收到大约3 TB的数据，其中每个逻辑单元由

组成

包含以下内容的目录：

所以最后我有一个包含大量小文件的大型目录树。

我的工作是将元数据文件从CSV转换为XML。我通常使用Perl来处理这个问题。新创建的XML文件将与相应的二进制数据一起复制到新目录，该目录将由闭源软件包的导入程序进程读入。此导入过程本质上是串行的。它只读取一个在另一个目录之后并处理它。越快越好。

过去我只是运行了Perl转换脚本和导入过程的几个实例，以实现某种程度的并行化。现在有了这个3 TB，我怀疑这个规模会很好。

硬件方面我有6台物理机可供我使用，我可以使用有限数量的轻量级VM（特定的Solaris区域）。我说“数量有限”，因为这些机器已经运行了带有服务的虚拟机。

最后一个约束：由于数据的敏感性，使用任何类型的云服务都是不可能的。

问题

我怎样才能明智地解决这个问题？有专门的解决方案吗？我开始研究Hadoop，虽然我仍然需要处理它对我的问题有何帮助。

我可以在Perl格式化脚本中构建线程，我可以运行它的几个实例来处理目录树的不同部分。这部分我完全受到控制。

我无法控制的部分是软件包的导入者 - 我只能创建其他实例并观看它们。

任何关于如何处理此问题的建议都将受到赞赏。