我正在构建逻辑回归分类器。
我从一组50万条记录开始,我只想使用其中的一个样本。
您推荐什么?
1)按比例缩放人口,然后抽样 2)缩放样本 3)仅缩放样本的X_TRAIN分割?
为什么?
我的考虑因素是:
1)如果样本可以代表总体(我应该测试吗?)
2)这并不令人信服,因为我将尝试几个示例以查看分类器的泛化级别,并且每次使用略微不同的缩放器听起来都不是一件好事。加上它会偏向X_train,X_test拆分
3)这不会偏向X_train,X_test拆分,但对point2的怀疑相同。
您会推荐什么,为什么?
答案 0 :(得分:1)
精彩的问题。几年前刚开始时,我心中也有类似的问题。让我尝试为此付出两分钱。
我建议继续创建用于缩放X_train的缩放器,存储缩放器,并查看是否使用它来转换X_test。根据中心性定理,如果您进行了随机抽样,则应该具有与总体属性相似的均值和方差。在大多数情况下,缩放器基于这两个参数工作。如果它代表总体参数,则只要测试数据来自同一总体,定标器就可以工作。如果它不起作用,则需要更多样本进行训练或尝试进行其他采样以获取代表人口的X_train。
通过这样做,您可以确定只要模型是通过相同的过程生成的,该模型也将适用于新样本。毕竟,该模型并不是为测试而构建的,而是要在生产中进行一些有用的工作。
我的建议是3)缩放X_train并使用缩放器转换X_test。