我想知道是否有办法在不使用中间文件的情况下将Hive的输出直接连接到Hadoop流式传输作业。我可以使用INSERT OVERWRITE DIRECTORY来创建一个临时文件,然后启动一个hadoop流式传输作业,但是我想知道是否有办法在没有临时文件的情况下执行此操作。
答案 0 :(得分:0)
在hive中有流媒体支持,请在页面上查看“Streaming” https://cwiki.apache.org/confluence/display/Hive/GettingStarted
您可以尝试将mr作业jar等作为“脚本”将查询结果流式传输到