Question

我有一组公司规模的二分变量： emp1_2（即拥有1或2名雇员的公司，包括所有者），emp3_9，emp10_19，emp20_49，emp50_99，emp100_249，emp250_499，emp500，加上我没有关于27家公司规模的信息，但我有一个有根据的猜测他们很大行。

我想为一家“小公司”创建一个二元变量;因此，当emp1_2==1 | emp3_9==1 | emp10_19==1等于1时，此变量等于1，否则为0。

根据我对Stata的理解，我是其中一个用户，构建二分变量的以下两种方法应该是等效的。

方法1）

gen lar_firm = 0
replace lar_firm = 1 if emp1_2==1 | emp3_9==1 | emp10_19==1

方法2）

gen lar_firm = (emp1_2 | emp3_9 | emp10_19)

相反，我发现方法2）对于emp1_2 |的公司，lar_firm等于1 emp3_9 | emp10_19以及没有进入任何类别的公司（例如emp1_2，emp3_9，emp10_19，emp20_49，emp50_99，emp100_249，emp250_499，emp500），但我有一个有根据的猜测，他们是大公司。

我想知道两种方法之间是否存在细微差别。我虽然应该导致平等的结果。

Answer 1

当你这样做时

gen lar_firm = emp1_2 | emp3_9 | emp10_19

你是否正在测试

(emp1_2 != 0) | (emp3_9 != 0) |(emp10_19 != 0)

特别是，缺失值.与0不同：事实上它们更大。

了解更多信息：

http://www.stata.com/support/faqs/data-management/logical-expressions-and-missing-values/

在Stata中编码二分变量

1 个答案: