Question

数据：使用R studio，我创建了一个由两列组成的簇数据的数据框：1）序列号和2）它们所属的簇。

图片参考：https://i.stack.imgur.com/3tXTt.png。很抱歉无法发布源代码，因为源代码是正在进行的大型项目的一部分，因此无法隔离。

数据帧长195个条目。第1列从1-195开始是连续的，而第2列由10个簇号组成，这些簇号是根据其所属的序列重复的。因此，例如，在我下面打印的数据帧的20行摘要中，您可以看到序列2-12都属于簇5。

 Seq Cluster
    1 10
    2 5
    3 5
    4 5
    5 5
    6 5
    7 5
    8 5
    9 5
    10 5
    11 5
    12 5
    13 4
    14 4
    15 3
    16 4
    17 4
    18 4
    19 2
    20 8

我的目标：我想从10个簇中的每一个中随机采样一个序列，并将其子集到一个新的数据库中。

例如：从序列2-12中随机抽取一个序列

但是我不确定如何仅在每个群集之间分别随机采样。

通过运行：

nrow(unique(dfCluster))

我可以收到每个群集的输出以及属于它的一个非冗余序列，但这并不是完全随机的，它只是每个群集组的第一个对应值。

作者注意：请让我知道我是否可以进一步阐明这些步骤中的任何一个，并为此深表歉意

来自数据框列中特定行的示例

0 个答案: