我有一个庞大的不平衡面板数据集,如下所示:
clear
input year id income
2003 513 500
2003 517 500
2003 518 100
2003 525 900
2003 528 800
2003 531 0
2003 532 300
2003 534 600
2004 513 1000
2004 517 120
2004 523 300
2004 525 700
2004 528 800
2004 531 200
2004 532 600
2004 534 100
end
我想通过id
随机抽样一些人。 id
的范围在正自然数(最小513
和最大287321
)之间存在差距,但存在一些面板缺失,即514
,515
,{{1} }。
我需要保留数据的面板功能。因此,如果选择了随机ID,则必须保留任何Year-ID组合。我不需要数据的随机样本(无论是10%还是10个观察值)。相反,我对ID列/变量中的随机ID编号感兴趣,并以一种以后可以使用的方式存储。
因此,我正在寻找一个命令,例如“从列ID的给定值集中选择一个随机值”。随后,我想在以下命令中使用此随机选择的ID:
516
应该向我显示随机人/ ID X的全年的收入。
答案 0 :(得分:2)
获得所需东西的一种方法是:
clear
input year id var
2003 513 5
2003 517 5
2003 523 6
2003 525 9
2003 528 8
2003 531 0
2003 532 3
2003 534 6
2004 513 10
2004 517 12
2004 523 3
2004 525 7
2004 528 8
2004 531 2
2004 532 6
2004 534 1
end
bysort year (id): sample 3, count
list, sepby(year)
+------------------+
| year id var |
|------------------|
1. | 2003 523 6 |
2. | 2003 534 6 |
3. | 2003 531 0 |
|------------------|
4. | 2004 517 12 |
5. | 2004 523 3 |
6. | 2004 532 6 |
+------------------+
要对10%
进行采样,您可以摆脱count
选项:
bysort year (id): sample 10
编辑:
要在所有面板中随机选择相同的观测值:
set seed 12345
generate random = runiform()
bysort id: replace random = random[1]
keep if random < 0.1
sort year (id)
list, sepby(year)
+-----------------------------+
| year id var random |
|-----------------------------|
1. | 2003 523 6 .0039323 |
2. | 2003 532 3 .0286627 |
|-----------------------------|
3. | 2004 523 3 .0039323 |
4. | 2004 532 6 .0286627 |
+-----------------------------+
答案 1 :(得分:1)
至少在一开始时并没有很好的解释,但是我认为您想随机选择面板。下面的方法首先随机选择观察值,然后将选择范围扩展到整个面板。它没有考虑任何面板中的观察次数。用-1标记选择只是一个次要设备,因此选择的观测值会尽早排序。不可思议的数字5(用任意不可思议的面板数替换)是所选面板数(不是百分比),这是您要的。
clear
input float(year id income)
2003 513 500
2004 513 1000
2003 517 500
2004 517 120
2003 518 100
2004 523 300
2003 525 900
2004 525 700
2003 528 800
2004 528 800
2003 531 0
2004 531 200
2003 532 300
2004 532 600
2003 534 600
2004 534 100
end
list, sepby(id)
+---------------------+
| year id income |
|---------------------|
1. | 2003 513 500 |
2. | 2004 513 1000 |
|---------------------|
3. | 2003 517 500 |
4. | 2004 517 120 |
|---------------------|
5. | 2003 518 100 |
|---------------------|
6. | 2004 523 300 |
|---------------------|
7. | 2003 525 900 |
8. | 2004 525 700 |
|---------------------|
9. | 2003 528 800 |
10. | 2004 528 800 |
|---------------------|
11. | 2003 531 0 |
12. | 2004 531 200 |
|---------------------|
13. | 2003 532 300 |
14. | 2004 532 600 |
|---------------------|
15. | 2003 534 600 |
16. | 2004 534 100 |
+---------------------+
bysort id : gen byte first = -(_n == 1)
set seed 1776
gen rnd = runiform()
sort first rnd
gen wanted = _n <= 5
bysort id (wanted) : replace wanted = wanted[_N]
sort id year
list id year if wanted, sepby(id)
+------------+
| id year |
|------------|
7. | 525 2003 |
8. | 525 2004 |
|------------|
9. | 528 2003 |
10. | 528 2004 |
|------------|
11. | 531 2003 |
12. | 531 2004 |
|------------|
13. | 532 2003 |
14. | 532 2004 |
|------------|
15. | 534 2003 |
16. | 534 2004 |
+------------+