我有一个包含变量fileid,year和大约1000个单词的大数据集(每个单词是一个单独的变量)。所有行条目都来自指示年份的公司报告,唯一的文件ID以及该报告中每个单词的相应绝对频率。现在我想要一些描述性的统计数据:根本不使用的单词数,单词的平均值,单词的方差,单词的最高百分位数。我如何在Stata中编程?
答案 0 :(得分:0)
警告:你最好在R或其他程序中使用文本处理包。但是,由于没有其他人回答,我会给它一个仅限Stata的镜头。可能已经构建了一个更适合的ado文件,但我不知道它。
我假设
每个单词都是一个单独的变量
表示存在变量word_profit
,其值k从0到K,其中word_profit[i]
是第i个报告fileid[i]
中写入利润的次数。
collapse (mean) word_*
将为您提供使用单词的平均次数。添加by(year)
选项将按年提供这些方法。为了使这比一个非常宽的观察数据集更易于管理,您将要在崩溃后运行以下内容:
gen temp = 1
reshape long word_, i(temp) j(str) string
rename word_ count
drop temp
单词的变化
collapse (std) word_*
会给你标准偏差。要获得差异,只需将标准偏差平方。
如果不清楚一点,我不会对你想要的东西有所了解。您可以使用以下内容为每个单词计算零:
foreach var of varlist word_* {
gen zero_`var' = (`var' == 0)
}
collapse (sum) zero_*