例外:
异常java.io.IOException失败:java.io.IOException:不知何故 读取-1个字节试图跳过6257个更多字节寻找位置 6708,大小:1290047
有没有人知道如何在云数据流上修复它?
答案 0 :(得分:1)
看起来您可能会点击this known issue,这对于阅读ORC文件有些特殊。 GCS连接器版本1.5.4有修复,本周将在Dataproc推出(预计将于10月14日星期五完全推出)。
与此同时,您可以使用小型初始化操作自动更新数据集群上的连接器版本;创建一个名为update-gcs-1.5.4.sh
的文件:
#!/bin/bash
rm -f /usr/lib/hadoop/lib/gcs-connector*.jar
gsutil cp gs://hadoop-lib/gcs/gcs-connector-1.5.4-hadoop2.jar /usr/lib/hadoop/lib/
然后将该文件上传到GCS:
gsutil cp update-gcs-1.5.4.sh gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh
然后创建Dataproc集群:
gcloud dataproc clusters create \
--initialization-actions gs://<YOUR_BUCKET_HERE>/update-gcs-1.5.4.sh