在GCP中的Google Bucket上运行数据处理任务

时间:2018-10-03 10:42:20

标签: kubernetes google-cloud-platform google-cloud-storage

我们的Google存储桶中有很多大文件(〜千兆字节)。我想处理这些文件并生成新文件。具体来说,这些是JSON文件,我要从中提取一个字段并将一些文件合并为一个。

我可以编写一些脚本在Kubernetes中以Pod的形式运行,这些脚本将连接到存储桶并从那里存储数据流,然后再返回。但是我发现它很丑-是否有专门针对存储桶中的数据处理的东西?

1 个答案:

答案 0 :(得分:2)

闻起来像大数据问题。

使用Apache Spark之类的大数据软件处理大文件。由于数据在Google云端中,因此建议使用Google Cloud Dataproc。另外,K8S上的大数据是WIP,建议暂时离开K8S。也许将来会在K8S上使用大数据。有关K8S上的大数据(herehere)的更多信息。

对于您的解决方案(使用K8S和手工编写的代码),所有容错功能都必须手动处理。但是,在Apache Spark的情况下,容错(节点关闭,网络故障等)将自动得到解决。

最后,我建议暂时不使用K8S,而将重点放在解决问题的大数据上。