使用总体样本的分类器:缩放总体,然后采样/缩放样本/缩放样本的X_TRAIN分割?

时间:2019-05-15 11:17:48

标签: python data-science sampling

我正在构建逻辑回归分类器。

我从一组50万条记录开始,我只想使用其中的一个样本。

您推荐什么?

1)按比例缩放人口,然后抽样 2)缩放样本 3)仅缩放样本的X_TRAIN分割?

为什么?

我的考虑因素是:

1)如果样本可以代表总体(我应该测试吗?)

2)这并不令人信服,因为我将尝试几个示例以查看分类器的泛化级别,并且每次使用略微不同的缩放器听起来都不是一件好事。加上它会偏向X_train,X_test拆分

3)这不会偏向X_train,X_test拆分,但对point2的怀疑相同。

您会推荐什么,为什么?

1 个答案:

答案 0 :(得分:1)

精彩的问题。几年前刚开始时,我心中也有类似的问题。让我尝试为此付出两分钱。

我建议继续创建用于缩放X_train的缩放器,存储缩放器,并查看是否使用它来转换X_test。根据中心性定理,如果您进行了随机抽样,则应该具有与总体属性相似的均值和方差。在大多数情况下,缩放器基于这两个参数工作。如果它代表总体参数,则只要测试数据来自同一总体,定标器就可以工作。如果它不起作用,则需要更多样本进行训练或尝试进行其他采样以获取代表人口的X_train。

通过这样做,您可以确定只要模型是通过相同的过程生成的,该模型也将适用于新样本。毕竟,该模型并不是为测试而构建的,而是要在生产中进行一些有用的工作。

我的建议是3)缩放X_train并使用缩放器转换X_test。