我有一个用例,我们有800000个json文件,每个大小为2KB。我们的要求是将这些较小的文件合并为一个大文件。我们尝试使用重新分区和合并在Spark中实现这一点。然而,我们没有发现这种效率,因为这比预期消耗更多的时间。有没有其他方法可以以高效的方式实现同样的目标?
感谢您的帮助。提前谢谢。
答案 0 :(得分:0)
Hadoop并不是您使用的正确工具。我建议只编写一个小的java或scala程序,它将逐个读取这些文件并输出到单个文件。任何与hadoop相关的工具都会给你带来巨大的性能开销(例如猪的初始化大约需要30秒),而独立应用程序将在1-2分钟甚至更短的时间内处理这些800k文件。