我在Google存储桶中存储了大量数据,其结构如下:
New-SmbShare : A positional parameter cannot be found that accepts argument 'share bsharetestingpermissions2'.
。我想要做的是创建一个Kubernetes作业,将其下载,解析并并行将解析的文件上传到BigQuery。到目前为止,我已经成功编写了一个Python代码,该代码以日期间隔作为输入并遍历执行gs://project_garden/plant_logs/2019/01/01/humidity/plant001/hour.gz
进行下载,gsutil -m cp -r
进行提取和熊猫操作的每个植物,从而在本地实现了无并行操作进行转换。我想用Kubernetes对每个工厂并行执行相同的操作。是否可以通过定义一个任务来并行化该过程,该任务传递每个吊舱的不同工厂ID并下载每个吊舱的文件?
答案 0 :(得分:0)
无法从Kubernetes直接上传到BigQuery,只能使用以下方法将数据上传到BigQuery [1]:
如前一条评论中所述,最简单的解决方案是使用DataFlow上传数据,您可以在链接[2]中找到一个模板以将文本从Google Cloud Storage(GCS)上传到BigQuery
如果必须使用Google Cloud Engine(GKE),则需要执行以下步骤:
[1] https://cloud.google.com/bigquery/docs/loading-data
[2] https://cloud.google.com/dataflow/docs/guides/templates/provided-streaming#gcstexttobigquerystream
[3] https://github.com/maciekrb/gcs-fuse-sample
[4] https://cloud.google.com/bigquery/docs/loading-data-cloud-storage