测试策略的非确定性行为

时间:2019-06-21 08:01:22

标签: testing machine-learning non-deterministic

我想测试一种不确定的计算机视觉算法。

我有该软件的两个版本:旧版本-假定工作正常,而新版本-除主要算法外,所有内容均进行了重大更改。该算法是不确定的,给定的视频文件将标记一些帧。由于不确定帧,因此在运行之间它标记的帧会有一些细微的变化。例如,如果在一次运行中它下次标记帧号N,则可以标记帧号N + 1或N-1,或者仅标记一个全新的帧。

机器学习之间的ML算法没有变化,并且两个版本的软件完全相同。

我想证明算法性能不受更改的影响。

我在同一视频上进行了30次运行,汇总了输出,并在两种情况下将两种算法的帧ID计数(相对于视频开始的帧数)绘制为并排的柱状图。看起来足够近了。

问题是我怎样才能使结论更加数学化? 目前,我倾向于统计假设检验。

是否有其他选择或建议?有测试非确定性代码的通用策略吗? 如果要进行假设检验,那么正确的做法是什么?

(我目前正在使用带有Python的jupyter笔记本来绘制数据并进行假设检验,但如果建议使用更好的选择,则可以自由选择任何其他工具)

0 个答案:

没有答案