Question

好吧，我挥舞着白旗。

我正在尝试在我的数据集上计算黄土回归。

我希望黄土能够计算出一组不同的点，这些点可以作为每个组的平滑线。

问题是黄土计算正在逃避dplyr::group_by函数，所以黄土回归是在整个数据集上计算的。

互联网搜索让我相信这是因为dplyr::group_by并不意味着以这种方式工作。

我无法弄清楚如何在每个群体的基础上开展这项工作。

以下是我尝试失败的一些例子。

test2 <- test %>% 
  group_by(CpG) %>% 
  dplyr::arrange(AVGMOrder) %>% 
  do(broom::tidy(predict(loess(Meth ~ AVGMOrder, span = .85, data=.))))

> test2
# A tibble: 136 x 2
# Groups:   CpG [4]
   CpG            x
   <chr>      <dbl>
 1 cg01003813 0.781
 2 cg01003813 0.793
 3 cg01003813 0.805
 4 cg01003813 0.816
 5 cg01003813 0.829
 6 cg01003813 0.841
 7 cg01003813 0.854
 8 cg01003813 0.866
 9 cg01003813 0.878
10 cg01003813 0.893

这个可行，但我无法弄清楚如何将结果应用于原始数据框中的列。我想要的结果是第x列。如果我将x作为列应用于单独的行中，则会遇到问题，因为我之前调用了dplyr::arrange。

test2 <- test %>% 
  group_by(CpG) %>% 
  dplyr::arrange(AVGMOrder) %>% 
  dplyr::do({
    predict(loess(Meth ~ AVGMOrder, span = .85, data=.))
  })

这个因为以下错误而失败。

“错误：结果1,2,3,4必须是数据框，而不是数字”

此外，它仍未应用为dplyr::mutate

的新列

fems <- fems %>% 
  group_by(CpG) %>% 
  dplyr::arrange(AVGMOrder) %>% 
  dplyr::mutate(Loess = predict(loess(Meth ~ AVGMOrder, span = .5, data=.)))

这是我的第一次尝试，大部分类似于我想做的事情。问题是这个对整个数据帧执行黄土预测而不是每个CpG组。

我真的被困在这里了。我在网上看到purr包可能会有所帮助，但我无法搞清楚。

数据如下所示：

> head(test)
    X geneID        CpG                                        CellLine       Meth AVGMOrder neworder Group SmoothMeth
1  40     XG cg25296477 iPS__HDF51IPS14_passage27_Female____165.592.1.2 0.81107210         1        1     5  0.7808767
2  94     XG cg01003813 iPS__HDF51IPS14_passage27_Female____165.592.1.2 0.97052120         1        1     5  0.7927130
3 148     XG cg13176022 iPS__HDF51IPS14_passage27_Female____165.592.1.2 0.06900448         1        1     5  0.8045080
4 202     XG cg26484667 iPS__HDF51IPS14_passage27_Female____165.592.1.2 0.84077890         1        1     5  0.8163997
5  27     XG cg25296477  iPS__HDF51IPS6_passage33_Female____157.647.1.2 0.81623880         2        2     3  0.8285259
6  81     XG cg01003813  iPS__HDF51IPS6_passage33_Female____157.647.1.2 0.95569240         2        2     3  0.8409501

独特（测试$ CPG） [1]“cg25296477”“cg01003813”“cg13176022”“cg26484667”

因此，为了清楚起见，我想对我的数据框中的每个唯一CpG进行黄土回归，将得到的“回归的y轴值”应用于与原始y轴值（Meth）匹配的列。

我的实际数据集中有几千个CpG，而不仅仅是四个。

https://docs.google.com/spreadsheets/d/1-Wluc9NDFSnOeTwgBw4n0pdPuSlMSTfUVM0GJTiEn_Y/edit?usp=sharing

Answer 1

您可能已经知道了这一点-但是，如果没有，这里有一些帮助。

基本上，您需要向预测函数提供要预测的值的data.frame（矢量也可以工作，但我没有尝试过）。

所以对于您的情况：

fems <- fems %>% 
  group_by(CpG) %>% 
  arrange(CpG, AVGMOrder) %>% 
  mutate(Loess = predict(loess(Meth ~ AVGMOrder, span = .5, data=.),
    data.frame(AVGMOrder = seq(min(AVGMOrder), max(AVGMOrder), 1))))

请注意，黄土需要最少的观测值才能运行（〜4？我记不清了）。另外，这需要一段时间才能运行，因此请对您的部分数据进行测试以确保其正常运行。

使用dplyr :: group_by（）

1 个答案: