标签: data-mining
我有一个数据集,其中有35万行数据和23列,我想从中提取10000行和23列,这将最好地代表父数据。
答案 0 :(得分:0)
你的问题的答案太笼统了。我会建议一些事情
使用数据的随机子采样,因为您正在寻找最具代表性的设置继续进行采样而无需替换。使用交叉验证可以获得最高精度的集合。但要明白抽样是随机的。
使用分层抽样 - 将数据分组。然后从每个组中采样数据点,以确保更多地表示数据集。
使用整个数据集并使用神经网络构建模型。通常他们使用更多数据。