我已经购买了一些笔记本电脑并继续使用DataLab。 我出于各种原因,希望从我机器上的本地Jupyter笔记本中访问相同的数据。
This question提出了一些方法,到目前为止我无法开展工作。
特别是Gcloud库:
from gcloud import bigquery
client = bigquery.Client()
给我一个最后一行的堆栈跟踪:
ContextualVersionConflict: (protobuf 2.6.1 (/usr/local/lib/python2.7/dist-packages), Requirement.parse('protobuf!=3.0.0.b2.post1,>=3.0.0b2'), set(['gcloud']))
熊猫图书馆看起来很有希望:
df=pd.io.gbq.read_gbq('SELECT CCS_Category_ICD9, Gender, Admit_Month FROM [xxxxxxxx-xxxxx:xxxx_100MB_newform.xxxxxx_100MB_newform]ORDER by CCS_Category_ICD9',
project_id='xxxxxxxx-xxxxx')
还给我一个堆栈跟踪:
IOError: [Errno 2] No such file or directory: '/usr/local/lib/python2.7/dist-packages/httplib2-0.9.1.dist-info/METADATA'
也许我在Pandas方法上有一个auth问题,虽然我的浏览器目前正在审核该项目?还是我错过了依赖?
任何建议或指导赞赏..
从本地Jupyter笔记本中访问BigQuery数据源的最佳方法是什么?
答案 0 :(得分:8)
根据gbq.read()
的错误,可能无法正确安装httplib2。在pandas installation page上,Google BigQuery支持需要一些可选的依赖项(httplib2就是其中之一)。
要重新安装/修复安装,请尝试:
pip install httplib2 --ignore-installed
安装了Google BigQuery支持的可选依赖项后,以下代码应该有效:
from pandas.io import gbq
df = gbq.read_gbq('SELECT * FROM MyDataset.MyTable', project_id='my-project-id')
答案 1 :(得分:1)
如果您使用特定于Datalab的方式访问GCP,那么您可能希望尝试使用https://github.com/googledatalab/datalab。这将为您提供Jupyter Notebook中与Datalab兼容的功能。
答案 2 :(得分:0)
我有同样的问题,但设法通过安装conda版本的gbq来解决它,我已经安装了anaconda分发的python所以我想如果你使用pip可能会有一些链接缺失
conda install pandas-gbq --channel conda-forge 这个命令做了业务
答案 3 :(得分:0)
我在这里有一个示例:https://github.com/kanjih-ciandt/docker-jupyter-gcloud/blob/master/ka.ipynb
但是,基本上,您首先需要安装一些软件包:
!pip install google-cloud --user
!pip install --upgrade google-cloud-bigquery[pandas] --user
!pip install google-cloud-storage --user
如果您已经拥有服务帐户文件,只需执行此操作(替换 JSON_SERVICE_ACCOUNT_FILE ):
import logging
import json
import os
from datetime import datetime
import pprint
from googleapiclient import discovery
from oauth2client.service_account import ServiceAccountCredentials
# Default scope to get access token
_SCOPE = 'https://www.googleapis.com/auth/cloud-platform'
from google.cloud import bigquery
client = bigquery.Client.from_service_account_json(JSON_SERVICE_ACCOUNT_FILE)
# Perform a query.
QUERY = (
'SELECT name FROM `bigquery-public-data.usa_names.usa_1910_2013` '
'WHERE state = "TX" '
'LIMIT 100')
query_job = client.query(QUERY) # API request
rows = query_job.result() # Waits for query to finish
for row in rows:
print(row.name)
但是,如果您可以访问某些GCP项目,但是不知道如何创建服务帐户,则可以直接在jupyter笔记本中创建该帐户:
SERVICE_ACCOUNT='jupytersa'
JSON_SERVICE_ACCOUNT_FILE = 'sa1.json'
GCP_PROJECT_ID='<GCP_PROJECT_ID>'
import subprocess
import sys
import logging
logger = logging.Logger('catch_all')
def run_command(parameters):
try:
return subprocess.check_output(parameters)
except BaseException as e:
logger.error(e)
logger.error('ERROR: Looking in jupyter console for more information')
run_command([
'gcloud', 'iam', 'service-accounts',
'create', SERVICE_ACCOUNT,
'--display-name', "Service Account for BETA SCC API",
'--project', GCP_PROJECT_ID
])
IAM_ROLES = [
'roles/editor'
]
for role in IAM_ROLES:
run_command([
'gcloud', 'projects', 'add-iam-policy-binding',GCP_PROJECT_ID,
'--member', 'serviceAccount:{}@{}.iam.gserviceaccount.com'.format(SERVICE_ACCOUNT, GCP_PROJECT_ID),
'--quiet', '--role', role
])
run_command([
'gcloud', 'iam', 'service-accounts',
'keys', 'create', JSON_SERVICE_ACCOUNT_FILE ,
'--iam-account',
'{}@{}.iam.gserviceaccount.com'.format(SERVICE_ACCOUNT, GCP_PROJECT_ID)
])
您可以在此处找到完整的示例:https://github.com/kanjih-ciandt/docker-jupyter-gcloud/blob/master/ka.ipynb
最后,如果要从Docker执行此笔记本,则可以使用以下图像:https://cloud.docker.com/u/hkanjih/repository/docker/hkanjih/docker-jupyter-gcloud