应用错误收集

通常机器学习系统表现良好。然而，当训练有素的机器学习系统出现问题时（例如机器学习系统的表现比随机的差...）这个伟大的猜测游戏＆＃34;开始。通过＆＃34;猜猜游戏＆＃34;，我提到了我的经验。对我来说，调试机器学习系统通常是通过猜测问题而不是以方法论的方式来完成的。

由于机器学习系统可能失败的原因很多，找到实际的错误可能非常耗时。例如，错误可能是由于：

有偏见的训练数据集
培训数据不足
包含错误的数据集
无代表/太多功能
草率训练（例如在神经元网络中，当训练数据不是随机呈现时）
...

是否有易于调试的机器学习系统？（它如何调试？）

是否有一种已知的方法来调试机器学习系统？

你所说的＆＃34;调试＆＃34;被称为机器学习社区中的优化。虽然有一些方法可以根据分类器和问题优化分类器，但没有标准的方法。例如，在文本分类问题中，您可能会通过实验发现，如果您使用某些功能训练分类器，则分类器的性能会得到提升。存在用于选择将导致分类器的最高分类准确度的特征组合的方法。这些方法中的一些涉及使用遗传算法来找到最佳特征组合。您可以了解的一种方法是顺序特征选择。关于这些主题的论文也很多，你可能会发现它们很有用。另外，有研究改变分类器实现中的分类函数或其他计算以实现更好的分类结果。

话虽如此，也有一些方法可以优化被视为作弊的分类器并且应该避免（通常在分类器被优化为仅解决单个数据集或高度相似的数据集上的问题时在其他以前看不见的数据集上。）

是否有一个易于调试的机器学习系统？

1 个答案: