Question

我想根据变量Quality将此df拆分为bin。但是，这是非常正确的倾斜

     TSI2         YRI       Chromosome Quality
a1 0.03829518 0.050231431         22   0.860
a2 0.03110103 0.010192455         22   0.938
a3 0.03141379 0.060045625         22   0.848

这是质量的组合。

到目前为止，我尝试对数据进行分区的方式导致每个分区中的样本数量都非常不同。

totalResults$groups = cut(totalResults$Quality, 10)

有没有办法强制这些垃圾箱中每个都有多个样本？

感谢

Answer 1

如果按分位数分割（使用?quantile），则会得到均数，但随后这些分档的长度不均匀。本身并不是件坏事。

Answer 2

从ggplot2剪切数字已经完成了这项工作

https://stackoverflow.com/a/15277169/5784757

https://www.rdocumentation.org/packages/ggplot2/versions/1.0.0/topics/cut_number

将偏斜数据拆分为R中的偶数大小的箱柜

2 个答案: