对于以下数据集示例:
11-12-2014 21:59
11-12-2014 21:59
11-12-2014 22:00
11-12-2014 22:06
我需要将不到五分钟的观察视为重复,然后在“bysort”命令中使用它们。有谁知道我如何定义重复项是间隔<5分钟的观察?
答案 0 :(得分:2)
这是一个不完整的答案,因为为了清楚起见,我使用简单数字而不是Stata时间值。但它显示了基本思想。
clear
input float x
1
3
9
13
17
end
generate run = 0
replace run = x in 1
replace run = cond(x<=run[_n-1]+5,run[_n-1],x) if _n>1
,它给出了以下结果,表明变量run
标识了&#34;重复&#34;的集合。根据您的标准进行观察。
. list
+----------+
| x run |
|----------|
1. | 1 1 |
2. | 3 1 |
3. | 9 9 |
4. | 13 9 |
5. | 17 17 |
+----------+