应用错误收集

对于微基准性能测试比较，Julia社区中的人们认为什么是最有效的统计数据？

例如，BenchmarkTools宏@benchmark报告：

最短时间
中位数时间
平均时间
最长时间

这些年来，我看到了最短时间的争论，但是我的统计背景使我对这一建议持谨慎态度。当然，我可能是错的，因为我来自不同的问题领域。

我确实找到了一些有趣的建议here。

有什么建议吗？

编辑

这是我到目前为止发现的：

一个可靠的软件性能基准测试组织似乎是SPEC：

标准性能评估公司（SPEC）是一家非营利性公司，旨在建立，维护和认可标准化的基准和工具，以评估最新一代计算系统的性能和能效。 SPEC开发了基准套件，还审查并发布了我们的成员组织和其他基准许可方提交的结果。

SPEC Members在计算方面显然具有影响力。这是当前列表，不包括合作伙伴等。

Acer Inc. * Action SA * Advanced Micro Devices * Amazon Web Services，Inc. * Apple Inc. * ARM * ASUSTek Computer Inc. * AuriStor Inc. * Avere Systems * Bull SAS * Cavium Inc. * Cisco Systems，Inc *戴尔公司*数字海洋* Epsylon Sp。动物园。 Sp。 Komandytowa *格式Sp。动物园。 *富士通*加特纳公司*技嘉科技有限公司*谷歌公司*贵州华新通半导体技术有限公司*日立数据系统*日立有限公司*惠普公司*惠普企业*华为技术有限公司* IBM *浪潮公司*英特尔* iXsystems公司*联想*微软* NEC公司* NetApp * New H3C Technologies Co.，Ltd. * NVIDIA * Oracle * Principled Technologies * Pure Storage * Qualcomm Technologies Inc. * Quanta Computer Inc. *红帽*三星* SAP AG * Sugon *超微型计算机公司* SUSE *淘宝（中国）软件有限公司* Unisys * Veritas Technologies * VIA Technologies * VMware * WekaIO *

它们提供了“ SPEC CPU2000运行和报告规则” here。

以下是本次讨论的相关部分（加粗体）：

目的   本文档详细说明了如何运行CPU2000套件中的基准以测量和公开报告性能结果，以确保使用套件生成的结果有意义，可与其他生成的结果相比较且可再现（文档涵盖与再现性能相关的因素）结果）。

根据SPEC许可协议，所有公开披露的结果必须遵守SPEC运行和报告规则，或清楚地标记为估算值。

需要以下基本知识：


遵守SPEC一般运行规则理念，包括

发布后3个月内所有组件的总体可用性。

为C / C ++ / Fortran程序提供合适的环境。



将SPEC工具用于所有已发布的结果，包括：

使用SPEC工具编译基准。

要求每个基准测试至少运行3次，以帮助提高稳定性和可重复性。

使用中位数是他们过程的一部分，如上面的黑体字所示。

朱莉娅微基准统计建议

0 个答案: