我有一个包含21个唯一数据记录的数据集。为了通过增加每个类的样本数量来测试某些算法(例如kNN和SVM)的性能,我想对每个类具有至少20条或更多唯一记录的数据进行测试(Predict Conc。是不同的类)。>
我不想生成随机数据。我想使用我拥有的21个唯一数据记录作为基础数据集,并生成与现有数据类似的其余数据。
如何使用Python做到这一点?
这是示例数据
Index OD600AV Cell Count Predict Conc
1 0.059625 800000 1
2 0.063125 442000 1
3 0.067375 544000 1
4 0.060125 728000 2
5 0.062500 616000 2
6 0.063000 688000 2
7 0.061125 532000 3
8 0.059875 470000 3
9 0.059250 556000 3
10 0.060250 466000 4
11 0.056000 222000 4
12 0.056000 390000 4
13 0.055125 112000 5
14 0.049625 105000 5
15 0.050875 120000 5
16 0.047875 56000 6
17 0.058000 44000 6
18 0.048500 140000 6
19 0.052500 62000 7
20 0.061125 52000 7
21 0.047125 64000 7
这个问题与Generate data by using existing dataset as the base dataset非常相似,似乎已经用R回答了,但我无法上班。
谢谢