应用错误收集

在Python中是否有一个很好的McNemar测试？我没有在Scipy.stats或Scikit-Learn中看到它。我可能忽略了其他一些好的套餐。请推荐。

McNemar的测试几乎是比较给定保持测试集的两种分类算法/模型的测试（不是通过K折叠或重采样方法来模拟测试集）。两种常见的替代方法是：t检验，用于直接比较来自两个算法和模型p_A和p_B的真实正比例A和B 1）假设方差遵循二项分布或2）使用重复重采样序列和测试集来估计方差。

然而，后两者显示具有高的1型错误（声明模型在统计上不同，但实质上它们是相同的）。如果比较两种分类算法或模型，McNemar的测试仍被认为是最好的。请参阅Dietterich10。

或者作为替代方案，如果不是通过McNemar的测试，人们如何在实践中统计比较两种分类模型？