应用错误收集

我们正在努力应对数百万行医疗数据。我们尝试从~30个班级到900个班级进行分类。我们正在对数据进行数百次测试（实验），试图获得尽可能高的分数。

首先，我们尝试将所有结果存储在文本文件中，稍后当我们进行了500多项测试时，我们已经转移到具有简单绘图的在线Google电子表格。我们也尝试过来自DeepSense.io的Neptune - 它是一个很棒的工具，但还没有满足我们的期望。

问题：

比较结果的最佳方法是什么？你用什么工具？如何存储所有测试/输出以及使用的描述和参数？是否有工具可以存储代码，共享代码，保存历史记录并可视化分数/指标？