machine-learning - 如何评估回归模型？

我有一个包含190个样本的数据集。我正在使用k折交叉验证来训练回归模型。我正在使用r平方形式来衡量模型的性能。

但是，有时，根据交叉验证过程的随机化过程，r平方非常不好。发生这种情况的原因是，从几个样本中，回归结果与预期的结果相差甚远。但是，对于大多数样本而言，回归非常好。

我认为，有时候，在交叉验证过程中，我没有将训练样本中的样本概率分布相同，但结果不佳。

我的问题是：在这种情况下，如何才能公平地评估我的模型？