谷歌数据流写入bigquery表性能

时间:2015-04-16 21:01:58

标签: google-cloud-dataflow

我将处理数据和输出的性能与Bigquery表和文件进行了比较,区别很大:

输入:来自约600个文件的1.5M记录 transform:构造/转换每个记录中的几个字段,构造一个键并发出键,值对;最终每个键的记录转到一个目标,一个文件或一个表;

写入13个文件需要7分钟,超过60分钟写入13个大型查询表;

试着理解这个预期结果还是我做得不对?写入bigquery表时应该考虑哪些因素?

请帮助,这可能是我试图做的事情的阻碍。

1 个答案:

答案 0 :(得分:4)

对于批处理作业,Dataflow将数据写入GCS,然后运行BigQuery作业将数据导入BigQuery,从而将数据导入BigQuery。如果您想知道BigQuery作业需要多长时间,我认为可以查看项目中运行的BigQuery作业。

您可以尝试以下命令来获取有关BigQuery导入作业的信息。

  bq ls -j <PROJECT ID>:

以上命令应显示作业列表和持续时间等内容。 (注意项目ID末尾的冒号我认为冒号是必需的。)

然后您可以尝试

bq show -j <JOB ID>

获取有关该职位的其他信息。

请注意,您必须是项目的所有者才能查看其他用户运行的作业。这适用于Dataflow运行的BigQuery作业,因为Dataflow使用服务帐户。