data-mining - 在数据挖掘中，如何从大型数据集中提取最具代表性的子集？ - Thinbug

在数据挖掘中，如何从大型数据集中提取最具代表性的子集？

时间：2017-05-09 01:00:10

标签： data-mining

我有一个数据集，其中有35万行数据和23列，我想从中提取10000行和23列，这将最好地代表父数据。

1 个答案:

答案 0 :(得分：0)

你的问题的答案太笼统了。我会建议一些事情

使用数据的随机子采样，因为您正在寻找最具代表性的设置继续进行采样而无需替换。使用交叉验证可以获得最高精度的集合。但要明白抽样是随机的。
使用分层抽样 - 将数据分组。然后从每个组中采样数据点，以确保更多地表示数据集。
使用整个数据集并使用神经网络构建模型。通常他们使用更多数据。