ORC表上的Hive选择查询失败

时间:2016-10-13 03:10:28

标签: hadoop hive hadoop-partitioning google-cloud-dataproc orc

例外:

  

异常java.io.IOException失败:java.io.IOException:不知何故   读取-1个字节试图跳过6257个更多字节寻找位置   6708,大小:1290047

有没有人知道如何在云数据流上修复它?

1 个答案:

答案 0 :(得分:1)

看起来您可能会点击this known issue,这对于阅读ORC文件有些特殊。 GCS连接器版本1.5.4有修复,本周将在Dataproc推出(预计将于10月14日星期五完全推出)。

与此同时,您可以使用小型初始化操作自动更新数据集群上的连接器版本;创建一个名为update-gcs-1.5.4.sh的文件:

#!/bin/bash
rm -f /usr/lib/hadoop/lib/gcs-connector*.jar
gsutil cp gs://hadoop-lib/gcs/gcs-connector-1.5.4-hadoop2.jar /usr/lib/hadoop/lib/

然后将该文件上传到GCS:

gsutil cp update-gcs-1.5.4.sh gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh

然后创建Dataproc集群:

gcloud dataproc clusters create \
    --initialization-actions gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh