我们的Google存储桶中有很多大文件(〜千兆字节)。我想处理这些文件并生成新文件。具体来说,这些是JSON文件,我要从中提取一个字段并将一些文件合并为一个。
我可以编写一些脚本在Kubernetes中以Pod的形式运行,这些脚本将连接到存储桶并从那里存储数据流,然后再返回。但是我发现它很丑-是否有专门针对存储桶中的数据处理的东西?
答案 0 :(得分:2)
闻起来像大数据问题。
使用Apache Spark之类的大数据软件处理大文件。由于数据在Google云端中,因此建议使用Google Cloud Dataproc。另外,K8S上的大数据是WIP,建议暂时离开K8S。也许将来会在K8S上使用大数据。有关K8S上的大数据(here和here)的更多信息。
对于您的解决方案(使用K8S和手工编写的代码),所有容错功能都必须手动处理。但是,在Apache Spark的情况下,容错(节点关闭,网络故障等)将自动得到解决。
最后,我建议暂时不使用K8S,而将重点放在解决问题的大数据上。