Stata中的描述性统计 - 单词频率

时间:2015-04-20 09:00:11

标签: statistics stata frequency-analysis

我有一个包含变量fileid,year和大约1000个单词的大数据集(每个单词是一个单独的变量)。所有行条目都来自指示年份的公司报告,唯一的文件ID以及该报告中每个单词的相应绝对频率。现在我想要一些描述性的统计数据:根本不使用的单词数,单词的平均值,单词的方差,单词的最高百分位数。我如何在Stata中编程?

1 个答案:

答案 0 :(得分:0)

警告:你最好在R或其他程序中使用文本处理包。但是,由于没有其他人回答,我会给它一个仅限Stata的镜头。可能已经构建了一个更适合的ado文件,但我不知道它。

我假设

  

每个单词都是一个单独的变量

表示存在变量word_profit,其值k从0到K,其中word_profit[i]是第i个报告fileid[i]中写入利润的次数。

单词的意思

collapse (mean) word_*将为您提供使用单词的平均次数。添加by(year)选项将按年提供这些方法。为了使这比一个非常宽的观察数据集更易于管理,您将要在崩溃后运行以下内容:

gen temp = 1
reshape long word_, i(temp) j(str) string
rename word_ count
drop temp
单词的变化

collapse (std) word_*会给你标准偏差。要获得差异,只需将标准偏差平方。

完全没用的字数

如果不清楚一点,我不会对你想要的东西有所了解。您可以使用以下内容为每个单词计算零:

foreach var of varlist word_* {
  gen zero_`var' = (`var' == 0)
}
collapse (sum) zero_*