如何将数据帧中的矢量值与R中的常量进行比较?

时间:2013-01-31 19:43:32

标签: r if-statement constants dataframe scalar

背景:我在几年内使用一些人口普查公共使用微观数据样本(特别是美国社区调查)来检查完成不同学位的人的行为(例如,高中文凭,学士学位,硕士学位) 。具有该公共用途文件的变量称为“学校教育”。问题是变量“学校教育”中包含的代码每年都在变化。例如,对于截至2007年的文件,“13”的值反映了完成学士学位,但从2008年开始,当某人完成学士学位时,该值将变为“21”。

目标:创建一个新的“学位竞争”变量,该变量翻译“学校教育”代码以反映完成的学位水平,同时考虑文件的年份。 后勤:所有年份的文件已连接在一起,出于审查目的,我必须按原样处理该文件,而不是在它到达这一点之前进行纠正。

现有代码:这是我尝试过的。

if      (original.file$year %in% c(2000,2001)) {
    if      (original.file$Schooling <= 08) {original.file$degree.completed <- 0}
    else if (original.file$Schooling <= 10) {original.file$degree.completed <- 1}
    else if (original.file$Schooling <= 12) {original.file$degree.completed <- 2}
    else if (original.file$Schooling == 13) {original.file$degree.completed <- 3}
    else if (original.file$Schooling == 14) {original.file$degree.completed <- 4}
    else if (original.file$Schooling == 15) {original.file$degree.completed <- 5}
    else if (original.file$Schooling == 16) {original.file$degree.completed <- 6}
    }
else if (original.file$year %in% c(2002,2003,2004,2005,2006,2007)) {
    if      (original.file$Schooling <= 08) {original.file$degree.completed <- 0}
    else if (original.file$Schooling <= 11) {original.file$degree.completed <- 1}
    else if (original.file$Schooling == 12) {original.file$degree.completed <- 2}
    else if (original.file$Schooling == 13) {original.file$degree.completed <- 3}
    else if (original.file$Schooling == 14) {original.file$degree.completed <- 4}
    else if (original.file$Schooling == 15) {original.file$degree.completed <- 5}
    else if (original.file$Schooling == 16) {original.file$degree.completed <- 6}
    }
else if (original.file$year %in% c(2008,2009,2010,2011)) {
    if      (original.file$Schooling <= 15) {original.file$degree.completed <- 0}
    else if (original.file$Schooling <= 19) {original.file$degree.completed <- 1}
    else if (original.file$Schooling == 20) {original.file$degree.completed <- 2}
    else if (original.file$Schooling == 21) {original.file$degree.completed <- 3}
    else if (original.file$Schooling == 22) {original.file$degree.completed <- 4}
    else if (original.file$Schooling == 23) {original.file$degree.completed <- 5}
    else if (original.file$Schooling == 24) {original.file$degree.completed <- 6}
    }

问题:我收到以下类型的警告信息。

  

警告讯息:

     

1:在if(original.file $ year%in%c(2000,2001)){:条件有长度&gt; 1,只使用第一个元素

     

2:在if(original.file $ Schooling&lt; = 8){:条件有长度&gt; 1,只使用第一个元素

     

3:在if(original.file $ Schooling&lt; = 10){:条件有长度&gt; 1,只使用第一个元素

问题:我知道这里有一个带有“if”的向量与标量问题,正如我从StackOverflow上的其他问题中看到的那样,但答案似乎并不适用于这种情况。这里有什么解决方案?

2 个答案:

答案 0 :(得分:3)

首先,使用cuttable代替所有ifelse

CutOffs1 <- c(0,8,10,12,13,14,15,16)
CutOffs2 <- c(0,8,11,12,13,14,15,16)
CutOffs3 <- c(0,15,19,20,21,22,23,24)
CutOffs <- cbind(CutOffs1, CutOffs2, CutOffs3)
MyTable <- apply(CutOffs, 2, function(X) cut(1:24, X, FALSE)-1)

      CutOffs1 CutOffs2 CutOffs3
 [1,]        0        0        0
 [2,]        0        0        0
 [3,]        0        0        0
 [4,]        0        0        0
 [5,]        0        0        0
 [6,]        0        0        0
 [7,]        0        0        0
 [8,]        0        0        0
 [9,]        1        1        0
[10,]        1        1        0
[11,]        2        1        0
[12,]        2        2        0
[13,]        3        3        0
[14,]        4        4        0
[15,]        5        5        0
[16,]        6        6        1
[17,]       NA       NA        1
[18,]       NA       NA        1
[19,]       NA       NA        1
[20,]       NA       NA        2
[21,]       NA       NA        3
[22,]       NA       NA        4
[23,]       NA       NA        5
[24,]       NA       NA        6

您还希望cut岁月成为因素。

original.file$Period <- cut(original.file$year, c(2000,2001, 2007, 2011), FALSE,   
                            include.lowest=TRUE) 
## To demonstrate:
    > cbind(2000:2011, cut(2000:2011, c(2000,2001, 2007, 2011), FALSE,   
+     include.lowest=TRUE))
      [,1] [,2]
 [1,] 2000    1
 [2,] 2001    1
 [3,] 2002    2
 [4,] 2003    2
 [5,] 2004    2
 [6,] 2005    2
 [7,] 2006    2
 [8,] 2007    2
 [9,] 2008    3
[10,] 2009    3
[11,] 2010    3
[12,] 2011    3

然后你应该能够做到:

Degrees <- apply(original.file, 1, function(X) MyTable[X['Schooling'], X['Period']])

答案 1 :(得分:0)

向Justin求助于解决方案:

  

如果作用于单个布尔值。相反,你可以使用ifelse作用于矢量,但不适合这个。您还可以使用布尔条件和子集。像dat $ degree [dat $ year%in%2000:2001&amp; dat $ schooling&lt; = 8]&lt; - 0. - Justin

最终解决方案需要进行一次调整:因为这不是if-then-else语句并且有多个语句,所以“&lt; = 8”类型的结构将不起作用,因为后续语句将取代此语句。例如,如果下一行有“...&lt; = 10]&lt; -1,则在调用此行后,所有零都将更改为1,依此类推。”&lt; = 8“必须转换为%c(1:8)语句中的%,并且必须注意使所有if-like语句互斥,以避免覆盖先前的赋值。