数据: 使用R studio,我创建了一个由两列组成的簇数据的数据框:1)序列号和2)它们所属的簇。
图片参考:https://i.stack.imgur.com/3tXTt.png。很抱歉无法发布源代码,因为源代码是正在进行的大型项目的一部分,因此无法隔离。
数据帧长195个条目。第1列从1-195开始是连续的,而第2列由10个簇号组成,这些簇号是根据其所属的序列重复的。因此,例如,在我下面打印的数据帧的20行摘要中,您可以看到序列2-12都属于簇5。
Seq Cluster
1 10
2 5
3 5
4 5
5 5
6 5
7 5
8 5
9 5
10 5
11 5
12 5
13 4
14 4
15 3
16 4
17 4
18 4
19 2
20 8
我的目标: 我想从10个簇中的每一个中随机采样一个序列,并将其子集到一个新的数据库中。
例如:从序列2-12中随机抽取一个序列
但是我不确定如何仅在每个群集之间分别随机采样。
通过运行:
nrow(unique(dfCluster))
我可以收到每个群集的输出以及属于它的一个非冗余序列,但这并不是完全随机的,它只是每个群集组的第一个对应值。
作者注意:请让我知道我是否可以进一步阐明这些步骤中的任何一个,并为此深表歉意