Question

我将处理数据和输出的性能与Bigquery表和文件进行了比较，区别很大：

输入：来自约600个文件的1.5M记录 transform：构造/转换每个记录中的几个字段，构造一个键并发出键，值对;最终每个键的记录转到一个目标，一个文件或一个表;

写入13个文件需要7分钟，超过60分钟写入13个大型查询表;

试着理解这个预期结果还是我做得不对？写入bigquery表时应该考虑哪些因素？

请帮助，这可能是我试图做的事情的阻碍。

Answer 1

对于批处理作业，Dataflow将数据写入GCS，然后运行BigQuery作业将数据导入BigQuery，从而将数据导入BigQuery。如果您想知道BigQuery作业需要多长时间，我认为可以查看项目中运行的BigQuery作业。

您可以尝试以下命令来获取有关BigQuery导入作业的信息。

  bq ls -j <PROJECT ID>:

以上命令应显示作业列表和持续时间等内容。（注意项目ID末尾的冒号我认为冒号是必需的。）

然后您可以尝试

bq show -j <JOB ID>

获取有关该职位的其他信息。

请注意，您必须是项目的所有者才能查看其他用户运行的作业。这适用于Dataflow运行的BigQuery作业，因为Dataflow使用服务帐户。