标签: apache-spark hive hdfs sqoop
我需要将一些数据从HDFS加载到Hive。但我需要在HDFS中的文件之间进行一些聚合。我读到Sqoop可以做到这一点但只使用MySQL。我还有哪些选择呢?
谢谢!
答案 0 :(得分:1)
您最好的选择是在Hive中创建一个外部表,该表来自HDFS中的文件。然后,您可以创建一个Hive表来存储您的聚合数据,并创建一些Hive SQL来插入该表。