应用错误收集

时间：2018-10-03 10:42:20

标签： kubernetes google-cloud-platform google-cloud-storage

我们的Google存储桶中有很多大文件（〜千兆字节）。我想处理这些文件并生成新文件。具体来说，这些是JSON文件，我要从中提取一个字段并将一些文件合并为一个。

我可以编写一些脚本在Kubernetes中以Pod的形式运行，这些脚本将连接到存储桶并从那里存储数据流，然后再返回。但是我发现它很丑-是否有专门针对存储桶中的数据处理的东西？

答案 0 :(得分：2)

闻起来像大数据问题。

使用Apache Spark之类的大数据软件处理大文件。由于数据在Google云端中，因此建议使用Google Cloud Dataproc。另外，K8S上的大数据是WIP，建议暂时离开K8S。也许将来会在K8S上使用大数据。有关K8S上的大数据（here和here）的更多信息。

对于您的解决方案（使用K8S和手工编写的代码），所有容错功能都必须手动处理。但是，在Apache Spark的情况下，容错（节点关闭，网络故障等）将自动得到解决。

最后，我建议暂时不使用K8S，而将重点放在解决问题的大数据上。