标签: python machine-learning scikit-learn dataset
我已经根据一些传感器的测量结果和一些标签创建了一个数据集,并对其进行了一些分类,结果很好。但是,由于我的数据集中的数据量相对较小(1400个示例),因此我想基于此数据生成更多数据。我的数据集中的每一行都包含32个数字值和一个标签。
哪种方法是根据我现有的数据集生成更多数据的最佳方法?到目前为止,我已经研究了生成对抗网络和自动编码器,但是我认为这种方法不适用于我的情况。
直到现在我都从事Scikit学习,但是我也可以使用其他库。
答案 0 :(得分:3)
关键字在此处Data Augmentation。您可以使用可用数据并对其进行一些修改,以生成其他与源数据略有不同的数据。
Data Augmentation
请查看this链接。作者使用数据增强来旋转和翻转猫的图像。因此,他从一个源图像生成了6个具有不同视角的其他图像。 如果将此想法转移到传感器数据中,则可以向数据中添加某种随机噪声以增加数据集。您可以找到一个简单的示例,用于时间序列数据here的数据补充。
另一种方法是对数据进行窗口化并将窗口移动一小步,因此窗口中的数据略有不同。
来自stackexchange统计部门的家伙写了一些关于它的东西。请检查this以获取更多信息。