我在BigQuery中有大约100GB的数据,而且我是使用数据分析工具的新手。我想使用程序化的一系列SQL查询获取大约3000个不同查询的提取,然后运行一些统计分析来比较这些提取中的峰度。
现在我的工作流程如下:
scipy
其中第二个工作正常,但在本地保存所有3000个数据提取(网络超时等)非常缓慢和痛苦。
有更好的方法吗?基本上我想知道是否有某种云工具,我可以快速运行调用以获取3000提取,然后运行Python进行峰度分析。
我看了https://cloud.google.com/bigquery/third-party-tools,但我不确定是否有人做我需要的。
答案 0 :(得分:2)
到目前为止,Cloud Datalab是您的最佳选择
https://cloud.google.com/datalab/
它处于测试阶段,因此可能会有一些惊喜
Datalab建立在下面(Jupyter / IPython)选项之上,完全在云端
另一个选择是Jupyter / IPython Notebook
http://jupyter-notebook-beginner-guide.readthedocs.org/en/latest/
我们的数据科学团队很久以前就开始使用第二个选项取得了巨大成功,现在正在向Datalab迈进
对于其他业务(prod,bi,ops,sales,marketing等),我们必须构建自己的工作流程/编排工具,因为没有任何东西被认为是好的或相关的。
答案 1 :(得分:1)
两种简单的方法:
1:如果您的问题是网络,就像您说的那样,使用谷歌计算引擎机器进行分析,与您的bigquery表(我们,欧盟等)在同一区域。它不会有网络问题从bigquery获取数据,并且将超级快。 机器只会花费您使用它的分钟数。保存机器的快照,以便随时重复使用机器设置(快照也具有每月成本,但远低于机器设置。)
2:使用支持bigquery资源的Google Cloud Datalab(2015年12月测试版),为您提供进行分析所需的所有工具,然后与其他人共享: https://cloud.google.com/datalab/
来自他们的文档:" Cloud Datalab建立在Jupyter(以前的IPython)之上,它拥有蓬勃发展的模块生态系统和强大的知识库。 Cloud Datalab可以使用Python,SQL和JavaScript(用于BigQuery用户定义的函数)分析Google BigQuery,Google Compute Engine和Google Cloud Storage上的数据。"
答案 2 :(得分:0)
您可以查看Cooladata
它允许您将BQ表作为外部数据源进行查询。 您可以做的是安排查询并将结果导出到Google存储,您可以从那里获取,或使用内置的强大报告工具来回答您的3000个查询。 它还将为您提供业务所需的所有BI工具。