在数据挖掘中,如何从大型数据集中提取最具代表性的子集?

时间:2017-05-09 01:00:10

标签: data-mining

我有一个数据集,其中有35万行数据和23列,我想从中提取10000行和23列,这将最好地代表父数据。

1 个答案:

答案 0 :(得分:0)

你的问题的答案太笼统了。我会建议一些事情

  1. 使用数据的随机子采样,因为您正在寻找最具代表性的设置继续进行采样而无需替换。使用交叉验证可以获得最高精度的集合。但要明白抽样是随机的。

  2. 使用分层抽样 - 将数据分组。然后从每个组中采样数据点,以确保更多地表示数据集。

  3. 使用整个数据集并使用神经网络构建模型。通常他们使用更多数据。