应用错误收集

时间：2019-07-29 09:38:25

标签： python machine-learning scikit-learn dataset

我已经根据一些传感器的测量结果和一些标签创建了一个数据集，并对其进行了一些分类，结果很好。但是，由于我的数据集中的数据量相对较小（1400个示例），因此我想基于此数据生成更多数据。我的数据集中的每一行都包含32个数字值和一个标签。

哪种方法是根据我现有的数据集生成更多数据的最佳方法？到目前为止，我已经研究了生成对抗网络和自动编码器，但是我认为这种方法不适用于我的情况。

直到现在我都从事Scikit学习，但是我也可以使用其他库。

答案 0 :(得分：3)

关键字在此处Data Augmentation。您可以使用可用数据并对其进行一些修改，以生成其他与源数据略有不同的数据。

请查看this链接。作者使用数据增强来旋转和翻转猫的图像。因此，他从一个源图像生成了6个具有不同视角的其他图像。如果将此想法转移到传感器数据中，则可以向数据中添加某种随机噪声以增加数据集。您可以找到一个简单的示例，用于时间序列数据here的数据补充。

另一种方法是对数据进行窗口化并将窗口移动一小步，因此窗口中的数据略有不同。

来自stackexchange统计部门的家伙写了一些关于它的东西。请检查this以获取更多信息。