Question

我有一个包含21个唯一数据记录的数据集。为了通过增加每个类的样本数量来测试某些算法（例如kNN和SVM）的性能，我想对每个类具有至少20条或更多唯一记录的数据进行测试（Predict Conc。是不同的类）。

我不想生成随机数据。我想使用我拥有的21个唯一数据记录作为基础数据集，并生成与现有数据类似的其余数据。

如何使用Python做到这一点？

这是示例数据

Index  OD600AV  Cell Count  Predict Conc            
1     0.059625  800000        1
2     0.063125  442000        1
3     0.067375  544000        1 
4     0.060125  728000        2
5     0.062500  616000        2
6     0.063000  688000        2
7     0.061125  532000        3
8     0.059875  470000        3
9     0.059250  556000        3
10    0.060250  466000        4
11    0.056000  222000        4
12    0.056000  390000        4
13    0.055125  112000        5
14    0.049625  105000        5
15    0.050875  120000        5
16    0.047875  56000         6
17    0.058000  44000         6
18    0.048500  140000        6
19    0.052500  62000         7
20    0.061125  52000         7
21    0.047125  64000         7

这个问题与Generate data by using existing dataset as the base dataset非常相似，似乎已经用R回答了，但我无法上班。

谢谢

使用Python基于现有数据集生成新数据

0 个答案: