应用错误收集

我有一种情况是应用户要求创建短暂的（从几秒钟到1-2分钟）k8s作业。我正在尝试检索作业运行时指标（如cpu和内存使用情况）。

我想到（并尝试过）的方法包括：

普罗米修斯查询，例如container_cpu_usage_seconds_total，但是基于拉式的scape意味着将不包含许多短暂的工作
Pushgateway，但正如普罗米修斯所建议的...valid use case for the Pushgateway is for capturing the outcome of a service-level batch job，所以我怀疑这不是合适的情况。
公制服务器，但公制服务器仅在短暂的作业容器上返回404，导致结果比普罗米修斯更糟。
直接查询/api/v1/nodes/{nodeName}/proxy/metrics/cadvisor。尽管几乎是实时的，但它会返回所有容器，因此我必须手动解析结果并找到所需的内容。

我正在考虑使用作业工作者容器旁边的轻量级监视器容器来检索工作者的指标。但是我不知道这是否是一个好主意，即使这样，也不知道如何检索工人的指标。

所以我的问题是：

您建议使用哪种方法来检索大量短期作业的CPU和内存使用情况？