应用错误收集

增加样本量（n>＆gt; 100）。您从中采样的数据本身就是一个随机样本。通过随机选择创建子集本身就是一个随机过程。如果其中一个数据类的频率较低，则问题是您的样本量（100）太低。

如果将replace标志更改为“True”并重复采样，则表示您正在执行称为自举的操作。假设完整的数据集代表真实的人口分布，这个重新采样将为您提供更低n值（n = 100）可能获得的测量类型的示例。

另一种选择是如上文所述的分层策略。但是，在执行此操作时，您不会创建随机子集，现在已将分布假设内置到较小的数据集中。请注意，只有在查看整个数据集以确定其分布后才能实现此目的。可能不是你想要的。

如果您正在根据数据创建（受监督的）训练数据集，则可以重复代表性不足的数据来操纵偏差。