Question

我正在为我正在苦苦挣扎的统计计算课程设计一个项目。我有一个数据集，其中包括患者ID，就诊次数（每个患者的基线，wk1，wk2）以及代表不同药物的10个变量（下面的快照中显示的UDS变量）。每个“ 1”代表药物筛查阳性。我必须清理数据集，以便仅包括患者ID和阳性药物筛选的数量。 Dataset snapshot。我必须将每个患者的所有患者就诊分组，以便所有数据都在一行中，然后我必须对每个患者的每个药物筛选列的所有值求和，以得出最终值，该值将添加为新列。

我应该提到我对R还是比较陌生，所以我会尽我所能精通该语言。

我希望这是有道理的，对于任何混乱，我深表歉意。谢谢你的帮助。我还附上了干净数据集的外观快照。 Clean data。

我尝试过：

summary_urine_df <- Clean_urine_df %>%
group_by(PATDEID, VISIT) %>%
summarize(UDS005 = sum(UDS005), UDS006 = sum(UDS006), UDS007 = sum(UDS007), 
            UDS008 = sum(UDS008), UDS009 = sum(UDS009), UDS010 = sum(UDS010),
            UDS011 = sum(UDS011), UDS012 = sum(UDS012), UDS013 = sum(UDS013),
            UDS014 = sum(UDS014))

Cleaner_urine_df <- summary_urine_df %>% mutate(
  nPosScreen = UDS005 + UDS006 + UDS007 + UDS008
  + UDS009 + UDS010 + UDS011 + UDS012 + UDS013 + UDS014) %>%
  mutate(nPosScreens = as.numeric(nPosScreen)) %>%
  select(PATDEID, nPosScreens)

Answer 1

没有可重复的数据，您似乎想使用pivot_longer()堆叠各个药物筛选。然后group_by()个患者ID和summarise来在患者体内产生总和。

library(tidyverse)

df %>%
  pivot_longer(
    cols = starts_with('UDS'),
    names_to = 'drug',
    values_to = 'positive'
  ) %>%
  group_by(PATDEID) %>%
  summarise(
    nPosScreen = sum(positive, na.rm = T)
  ) %>%
  select(PATDEID, nPosScreen)

Answer 2

如果我答对了，您只需要为每位患者汇总所有非零条目。因此，这是拆分数据帧（不包含ID和Week列）并求和的问题。

首先，我模拟一些看起来像您的数据：

#simulate data
set.seed(100)
PATIENTS = paste("ID",1:10,sep="")
VISITS = paste("wk",1:12,sep="")
COLS = paste("UDS",sprintf("%03d",5:14),sep="")
N=length(PATIENTS)*length(VISITS)*length(COLS)
Clean_urine_df = data.frame(
ID = rep(PATIENTS,each=length(VISITS)),
matrix(as.numeric(runif(N)>0.5),ncol=length(COLS)),
VISITS = rep(VISITS,each=length(PATIENTS))
)

colnames(Clean_urine_df)[2:11] = COLS
head(Clean_urine_df)

> head(Clean_urine_df)
   ID UDS005 UDS006 UDS007 UDS008 UDS009 UDS010 UDS011 UDS012 UDS013 UDS014
1 ID1      0      0      0      0      0      0      0      1      1      1
2 ID1      0      0      1      0      0      1      0      1      0      1
3 ID1      1      0      1      1      1      0      1      1      1      0
4 ID1      0      1      1      0      0      0      0      0      1      0
5 ID1      0      0      0      1      0      0      1      0      1      1
6 ID1      0      0      1      1      0      1      0      1      1      0
  VISITS
1    wk1
2    wk1
3    wk1
4    wk1
5    wk1
6    wk1

尽管我已经定义了要总结的列，但请想象在您的情况下，您可以再次定义它：

COLS <- c("UDS005","UDS006","UDS007","UDS008","UDS009","UDS010","UDS011","UDS012","UDS013", "UDS014")

现在如上所述，您可以使用base R函数进行总结：

counts = by(Clean_urine_df[,COLS],Clean_urine_df$ID,sum,simplify=TRUE)
data.frame(id=levels(Clean_urine_df$ID),nPosScreens=as.numeric(counts))
     id nPosScreens
1   ID1          61
2  ID10          57
3   ID2          56
4   ID3          65
5   ID4          60
6   ID5          61
7   ID6          61
8   ID7          64
9   ID8          67
10  ID9          65

“ by”函数采用矩阵或data.frame，根据Clean_urine_df $ ID对其进行分割，然后对所有内容求和。

同样，您可以在dplyr中执行某些操作，但是您需要purrr：

library(dplyr)
library(purrr)

t(map_df(split(Clean_urine_df[,COLS],Clean_urine_df$ID),sum))

分组和汇总数据R

2 个答案: