Zepplin BigQuery连接上的Dataproc错误

时间:2019-04-26 11:28:41

标签: google-cloud-platform google-bigquery hadoop2 apache-zeppelin

我已经设置了一个节点Dataproc GCP集群,并使用初始化操作在其上安装了Zeppelin

当我尝试使用简单的select sql查询访问示例BigQuery表时,它从Zeppelin UI中抛出错误:

%bigquery.sql
SELECT * FROM `GCPPJ-238506.ML_DATASET.test` 
  

错误详细信息:SQL执行返回错误!

请注意,我已经设置了服务帐户的凭据访问权限以及Zeppelin上BigQuery Interpreter中设置的以下值:

zeppelin.bigquery.max_no_of_rows    1000000
zeppelin.bigquery.project_id    GCPPJ-238506
zeppelin.bigquery.sql_dialect   standardSQL
zeppelin.bigquery.wait_time 5000000

1 个答案:

答案 0 :(得分:0)

我按照提供的Zeppeline链接中的步骤进行了操作,并且有效:

  1. 使用Zeppeline创建集群: gcloud dataproc集群创建zeppeline \ --initialization-actions gs://dataproc-initialization-actions/zeppelin/zeppelin.sh

  2. 创建隧道: gcloud计算ssh zeppeline-m \ --project = dataproc-training-epam --zone = us-east1-b-\ -4 -N -L 8080:zeppeline-m:8080

    请确保已启用到主节点中端口22的入口流量。

  3. 使用端口8080和(在Web预览中)从Cloud Shell中打开笔记本。

  4. 我通过设置属性zeppelin.bigquery.sql_dialect = standardSQL更改了SQL方言。我执行了查询并成功了。

因此,我建议:

  • 确认您可以查询其他数据集和表以验证安装是否正确。
  • 验证您的数据集和表是否可访问,例如,从Bigquery UI执行相同的查询。

另一方面,您可以通过Zeppeline Component将Dataproc连接到Zeppelin。可通过仍位于Alpha中的组件网关访问Web界面,但是您可能需要尝试一下。