来自数据框列中特定行的示例

时间:2018-10-24 01:32:24

标签: r dataframe random cluster-analysis dna-sequence

数据: 使用R studio,我创建了一个由两列组成的簇数据的数据框:1)序列号和2)它们所属的簇。

图片参考:https://i.stack.imgur.com/3tXTt.png。很抱歉无法发布源代码,因为源代码是正在进行的大型项目的一部分,因此无法隔离。

数据帧长195个条目。第1列从1-195开始是连续的,而第2列由10个簇号组成,这些簇号是根据其所属的序列重复的。因此,例如,在我下面打印的数据帧的20行摘要中,您可以看到序列2-12都属于簇5。

 Seq Cluster
    1 10
    2 5
    3 5
    4 5
    5 5
    6 5
    7 5
    8 5
    9 5
    10 5
    11 5
    12 5
    13 4
    14 4
    15 3
    16 4
    17 4
    18 4
    19 2
    20 8

我的目标: 我想从10个簇中的每一个中随机采样一个序列,并将其子集到一个新的数据库中。

例如:从序列2-12中随机抽取一个序列

但是我不确定如何仅在每个群集之间分别随机采样。

通过运行:

nrow(unique(dfCluster))

我可以收到每个群集的输出以及属于它的一个非冗余序列,但这并不是完全随机的,它只是每个群集组的第一个对应值。

作者注意:请让我知道我是否可以进一步阐明这些步骤中的任何一个,并为此深表歉意

0 个答案:

没有答案