我正在尝试使用GCP服务编写提取应用程序。每天可能会有约1 TB的数据以流方式发送(即每小时100 GIG,或在特定时间甚至一次)。
我正在尝试设计提取应用程序,我首先认为在cron作业中编写一个简单的Python脚本以顺序读取文件(甚至在两个三个线程中),然后将其作为消息发布给pub / sub。此外,我需要运行一个Dataflow作业,始终从pub / sub中读取数据并将其保存到BigQuery。
但是我真的很想知道是否在这里完全需要pub / sub,我知道数据流可能非常灵活,我想知道是否可以将1 TB的数据作为批处理作业直接从GCS导入到BigQuery中,或者更好地由流媒体作业(按pub / sub)完成,如我上面所述?每种方法在成本方面都有哪些利弊?
答案 0 :(得分:1)
似乎您根本不需要发布/订阅。
已经有一个数据流模板,用于直接从Cloud Storage to BigQuery传输文本文件(在BETA中,就像从Pub / Sub到BigQuery模板一样),并且通常,批处理作业比流作业便宜(请参阅{{3 }}。