应用错误收集

时间：2019-02-15 04:56:03

标签： google-cloud-platform

我正在尝试使用GCP服务编写提取应用程序。每天可能会有约1 TB的数据以流方式发送（即每小时100 GIG，或在特定时间甚至一次）。

我正在尝试设计提取应用程序，我首先认为在cron作业中编写一个简单的Python脚本以顺序读取文件（甚至在两个三个线程中），然后将其作为消息发布给pub / sub。此外，我需要运行一个Dataflow作业，始终从pub / sub中读取数据并将其保存到BigQuery。

但是我真的很想知道是否在这里完全需要pub / sub，我知道数据流可能非常灵活，我想知道是否可以将1 TB的数据作为批处理作业直接从GCS导入到BigQuery中，或者更好地由流媒体作业（按pub / sub）完成，如我上面所述？每种方法在成本方面都有哪些利弊？

答案 0 :(得分：1)

似乎您根本不需要发布/订阅。

已经有一个数据流模板，用于直接从Cloud Storage to BigQuery传输文本文件（在BETA中，就像从Pub / Sub到BigQuery模板一样），并且通常，批处理作业比流作业便宜（请参阅{{3 }}。