我有一组公司规模的二分变量: emp1_2(即拥有1或2名雇员的公司,包括所有者),emp3_9,emp10_19,emp20_49,emp50_99,emp100_249,emp250_499,emp500,加上我没有关于27家公司规模的信息,但我有一个有根据的猜测他们很大行。
我想为一家“小公司”创建一个二元变量;因此,当emp1_2==1 | emp3_9==1 | emp10_19==1
等于1时,此变量等于1,否则为0。
根据我对Stata的理解,我是其中一个用户,构建二分变量的以下两种方法应该是等效的。
方法1)
gen lar_firm = 0
replace lar_firm = 1 if emp1_2==1 | emp3_9==1 | emp10_19==1
方法2)
gen lar_firm = (emp1_2 | emp3_9 | emp10_19)
相反,我发现方法2)对于emp1_2 |的公司,lar_firm等于1 emp3_9 | emp10_19以及没有进入任何类别的公司(例如emp1_2,emp3_9,emp10_19,emp20_49,emp50_99,emp100_249,emp250_499,emp500),但我有一个有根据的猜测,他们是大公司。
我想知道两种方法之间是否存在细微差别。我虽然应该导致平等的结果。
答案 0 :(得分:2)
当你这样做时
gen lar_firm = emp1_2 | emp3_9 | emp10_19
你是否正在测试
(emp1_2 != 0) | (emp3_9 != 0) |(emp10_19 != 0)
特别是,缺失值.
与0不同:事实上它们更大。
了解更多信息:
http://www.stata.com/support/faqs/data-management/logical-expressions-and-missing-values/