json - 如何将4TB Json数据迁移到Hadoop？

我有4TB json的PCM（产品目录）数据，我们的开发人员每天将这些数据从mongoDB中转储。作为构建数据仓库的一部分，我们希望将其移动到HDFS并将此数据公开为配置单元表以进行分析。我只能让他们使用任何文件格式进行转储。目前，我使用JSONSerde创建临时表以读取HDFS，并在其中移动此json文件并创建了ORC格式的最终表，这样我的配置单元查询将更快谁能提出在Hadoop中读取大数据（4TB）json的最佳方法。我们的集群负担不起Spark。我尝试解析每个由get_json_object方法提交的文件，它仍然比Hive JsonSerde花费更多的时间和资源。

注意：如果您知道更好的方法，请不要垃圾邮件，然后只回复

如何将4TB Json数据迁移到Hadoop？

0 个答案: