Question

我想知道的是如何/是否可以基于许多（显然模糊的）条件代码重新编码值。我已经研究了好几天，但找不到合适的答案。全面披露，我是R的新手，所以在我暴露无知的同时，请多包涵！-迄今为止，已经在Excel中手动执行了以下所有任务。

我有一个主数据集，我使用.csv格式的数据每季度更新一次。每个季度的迭代都会收集来自广泛案例中不同案例的关系数据（例如，我正在处理的当前迭代具有> 1300个变量），所有这些都基于对调查的响应。每行包含来自唯一案例的数据，并由唯一ID＃标识。

此外，在每次迭代中都有一个变量（“ v12”），该变量指示每个案例接收到的调查版本。每个新的调查版本都会带来引入新主题和/或从调查中删除旧主题的可能性，因此，为了保持总体估计的可靠性，我想分配所有适用的数据点（即，针对该主题的所有案例）该问题不在收到的调查中）具有唯一的值，例如“ _N / A”。

由于我有很多变量，所以我想利用一个可以将值“ _N / A”应用于所有变量的程序包/程序： 1）在版本26之前（“ v12 <= 25”）；和 2）[以“ t”开头并以“ d”结尾]或[以“ t”开头并以“ sw”结尾]。

我尝试在dplyr中使用以下代码：

library("dplyr") #activate dplyr

thruv25 <- original %>% filter(v12 <= 25) #subset data by survey version

appvars <- thruv25 %>% select(matches("t.+d"), matches("t.+sw")) #subset 'thruv25' by only including variables of interest

但是目标是重新编码“原始”数据集中的所有适用值，而不是孤立的数据集（例如“ appvars”），如果使用上面的代码，该数据无论如何都会被剥离其唯一标识符。

您的任何指导将不胜感激！

有条件地为R的值重新编码其命名约定以某些文本开头和结尾的变量

0 个答案: