我有国家调查的加权STATA数据集(n = 6342)。数据已经加权,即每个受访者平均代表4000名受访者。
我正在阅读具有pandas.read_stata
功能的数据集。基本上,我需要实现的是通过每个问题提取数据,每个问题具有相应的频率(%)以及每个频率的误差范围。
我已经编写了Python代码来完成它并且它与频率本身完美地协同工作,即计算每个频率中的加权值之和并将其除以总加权值总和。
伪代码如下所示:
q_5 = dataset['q5'].unique()`
frequencies = {}
for value in q_5:
variable = dataset[dataset['q5'] == value]
freq = ((variable['indwt'].sum()/weights_sum)*100)
freq = round(freq,0)
frequencies.update({value : freq})
然而,由于这是一个复杂的样本,我无法获得适当的置信区间或误差范围。 我被建议使用R代替,但考虑到语法学习曲线,我宁愿坚持使用Python。
是否有任何可以为复杂样本计算ME的Python统计软件包?