您好,有什么方法可以将数据从配置单元视图移动到S3?对于表,我正在使用distcp,但是由于视图没有将数据保留在HDFS位置中,因此我无法执行distcp,也无法访问用于创建视图的表。如果从视图执行CTAS,则刷新时将不会从视图获取最新数据。除了从视图创建表并执行distcp之外,还有其他方法吗?请提前帮助谢谢。
答案 0 :(得分:2)
最好的选择是编写一个spark程序,该程序将使用蜂巢上下文从视图/表中加载数据,并以要求的格式(例如镶木地板/ orc / csv / json)写回S3
答案 1 :(得分:0)
您可以使用的一种方法是使用AWS S3命令行界面(CLI)将Hive标准输出流数据复制到S3。
这是示例代码。
beeline -u jdbc:hive2://192.168.0.41:10000/test_db -n user1 -p password --outputformat=csv2 -e "select * from t1_view" | aws s3 cp - s3://testbucket/upload/test_view.txt
请注意,您必须安装AWS S3 CLI才能使用此方法。