如何将测试应用于大型数据集中的行?

时间:2019-05-31 20:47:53

标签: r rstudio bioinformatics roc

我正在处理> 40,000行> = 200列的大型数据集。我想导出此数据集中所有基因的AUC值并保留它们(列表很好,最好使用新的数据框)。

我发现许多使用pROC软件包打印AUC的解决方案,但是似乎要求数据以基因为列进行组织(下面的工作代码)。我想逐行应用ROC函数,但无法弄清楚我要去哪里。我尝试使用t()

转换数据

下面的代码在行数少且数据转置时有效:

PATIENT_ID  Cancerbenign    GENE1   GENE2
GSM1817723      1            34      13
GSM1817724      0             8      12
GSM1817729      1             4       5
GSM1817742      0             5       7

AUC <- lapply(df[,c(2:200)], function(x) roc(df$cancerorbenign, x, plot=FALSE, print.auc=TRUE)$auc)

但是我想做同样的事情,但要使用现有格式的数据:

GENE ID G   SM1817723   GSM1817724  GSM1817729  GSM1817742  
Cancerbenign 1              0           1           0
GENE1       34              8           4           5
GENE2        13             12          5           7

我尝试了一些解决方案,但还没有接近(或者我会举一些例子)。我相信答案很简单,但我无法用谷歌找到令人满意的解决方案。

我希望一个列表对象的基因名称和AUC值的长度为:nrow

预先感谢

0 个答案:

没有答案