Question

我的问题是此处的扩展：Construct new variable from given 5 categorical variables in Stata

我是R用户，我一直在努力适应Stata语法。此外，我习惯于在线获取Google for R文档/示例，并且没有为Stata找到尽可能多的资源，所以我来到这里。

我有一个数据集，其中行代表个人，列记录了这些人的各种属性。有5个分类变量（白色，西班牙裔，黑色，亚洲，其他）具有二进制响应数据，0或1（“否”或“是”）。我想使用spineplots包创建种族与响应数据的马赛克图。但是，我认为我必须首先将所有5个分类变量组合成一个分类变量，其中有5个级别来维护标签（所以我可以看到每个种族的响应率。）我一直在玩egen函数但是避风港能够让它运作起来。任何帮助将不胜感激。

编辑：添加了我的数据的样子以及我希望它看起来像什么的描述。

我现在的数据：

person_id,black,asian,white,hispanic,responded

1,0,0,1,0,0

2,1,0,0,0,0

3,1,0,0,0,1

4,0,1,0,0,1

5,0,1,0,0,1

6,0,1,0,0,0

7,0,0,1,0,1

8,0,0,0,1,1

我想要的是通过tabulate命令生成一个表来进行以下操作：

respond, black, asian, white, hispanic
responded to survey |    20, 30, 25, 10, 15

did not respond     |    15, 20, 21, 23, 33

Answer 1

您似乎想要一个指标变量而不是多个{0,1}假人。最简单的方法可能是循环;另一个选择是使用cond()生成一个新的指标变量（请注意，您可能希望捕获其他所有种族假人0在其他组中的受访者），标记其值（以及responded的值），然后创建频率表：

clear
input person_id black asian white hispanic responded
1 0 0 1 0 0
2 1 0 0 0 0
3 1 0 0 0 1
4 0 1 0 0 1
5 0 1 0 0 1
6 0 1 0 0 0
7 0 0 1 0 1
8 0 0 0 1 1
9 0 0 0 0 1
end

gen race = "other"
foreach v of varlist black asian white hispanic {
    replace race = "`v'" if `v' == 1
}

label define race2 1 "asian" 2 "black" 3 "hispanic" 4 "white" 99 "other"
gen race2:race2 = cond(black == 1, 1, ///
                cond(asian == 1, 2, ///
                cond(white == 1, 3, ///
                cond(hispanic == 1, 4, 99))))

label define responded 0 "did not respond" 1 "responded to survey"
label values responded responded
tab responded race

结果

                    |                          race
          responded |     asian      black   hispanic      other      white |     Total
--------------------+-------------------------------------------------------+----------
    did not respond |         1          1          0          0          1 |         3 
responded to survey |         2          1          1          1          1 |         6 
--------------------+-------------------------------------------------------+----------
              Total |         3          2          1          1          2 |         9

tab responded race2使用不同的排序（通过race2的实际值而不是值标签的字母顺序）产生相同的结果。

在Stata

1 个答案: