我有4TB json的PCM(产品目录)数据,我们的开发人员每天将这些数据从mongoDB中转储。作为构建数据仓库的一部分,我们希望将其移动到HDFS并将此数据公开为配置单元表以进行分析。我只能让他们使用任何文件格式进行转储。目前,我使用JSONSerde创建临时表以读取HDFS,并在其中移动此json文件并创建了ORC格式的最终表,这样我的配置单元查询将更快谁能提出在Hadoop中读取大数据(4TB)json的最佳方法。我们的集群负担不起Spark。我尝试解析每个由get_json_object方法提交的文件,它仍然比Hive JsonSerde花费更多的时间和资源。
注意:如果您知道更好的方法,请不要垃圾邮件,然后只回复