将数据从配置单元视图移动到AWS S3

时间:2019-09-20 13:35:50

标签: amazon-s3 hive distcp

您好,有什么方法可以将数据从配置单元视图移动到S3?对于表,我正在使用distcp,但是由于视图没有将数据保留在HDFS位置中,因此我无法执行distcp,也无法访问用于创建视图的表。如果从视图执行CTAS,则刷新时将不会从视图获取最新数据。除了从视图创建表并执行distcp之外,还有其他方法吗?请提前帮助谢谢。

2 个答案:

答案 0 :(得分:2)

最好的选择是编写一个spark程序,该程序将使用蜂巢上下文从视图/表中加载数据,并以要求的格式(例如镶木地板/ orc / csv / json)写回S3

答案 1 :(得分:0)

您可以使用的一种方法是使用AWS S3命令行界面(CLI)将Hive标准输出流数据复制到S3。

这是示例代码。

beeline -u jdbc:hive2://192.168.0.41:10000/test_db -n user1 -p password --outputformat=csv2 -e "select * from t1_view" | aws s3 cp - s3://testbucket/upload/test_view.txt

请注意,您必须安装AWS S3 CLI才能使用此方法。