我想知道的是如何/是否可以基于许多(显然模糊的)条件代码重新编码值。我已经研究了好几天,但找不到合适的答案。全面披露,我是R的新手,所以在我暴露无知的同时,请多包涵!-迄今为止,已经在Excel中手动执行了以下所有任务。
我有一个主数据集,我使用.csv格式的数据每季度更新一次。每个季度的迭代都会收集来自广泛案例中不同案例的关系数据(例如,我正在处理的当前迭代具有> 1300个变量),所有这些都基于对调查的响应。每行包含来自唯一案例的数据,并由唯一ID#标识。
此外,在每次迭代中都有一个变量(“ v12”),该变量指示每个案例接收到的调查版本。每个新的调查版本都会带来引入新主题和/或从调查中删除旧主题的可能性,因此,为了保持总体估计的可靠性,我想分配所有适用的数据点(即,针对该主题的所有案例)该问题不在收到的调查中)具有唯一的值,例如“ _N / A”。
由于我有很多变量,所以我想利用一个可以将值“ _N / A”应用于所有变量的程序包/程序: 1)在版本26之前(“ v12 <= 25”);和 2)[以“ t”开头并以“ d”结尾]或[以“ t”开头并以“ sw”结尾]。
我尝试在dplyr中使用以下代码:
library("dplyr") #activate dplyr
thruv25 <- original %>% filter(v12 <= 25) #subset data by survey version
appvars <- thruv25 %>% select(matches("t.+d"), matches("t.+sw")) #subset 'thruv25' by only including variables of interest
但是目标是重新编码“原始”数据集中的所有适用值,而不是孤立的数据集(例如“ appvars”),如果使用上面的代码,该数据无论如何都会被剥离其唯一标识符。
您的任何指导将不胜感激!