python中SAS格式有哪些替代方案?

时间:2014-07-16 10:27:31

标签: python sqlite sas

我试图在python中执行一项通常在SAS中执行的任务,以便学习python。我的工作是在官方统计中,我应该根据年龄组和性别制定一些就业表。到目前为止,数据已从SAS导出为csv并导入到sqlite。我现在面临的问题是将年龄总结为年龄组。

数据集中的变量是年龄和性别,在SAS中,我通常会使用一种格式将年龄重新编码为年龄组。 Python似乎没有等同于SAS格式。我认为处理格式的最佳方法是将它们作为sqlite中的单独表导入(包含年龄和年龄组作为变量),并将基于年龄的两个表作为键加入。但是,sas格式的值是范围(开始和停止),我不确定如何以巧妙的方式填充年龄组表。使用这种小格式,可以通过sql中的case语句完成重新编码,但是表格方法对于更大的其他格式更有用,例如,工业分类标准(SIC 2007)。有关如何解决这个问题的想法吗?

1 个答案:

答案 0 :(得分:2)

可以连接具有任意条件的表:

CREATE TABLE Data(Age, [...]);
CREATE TABLE AgeGroups(AgeGroup, Min, Max);
...
SELECT AgeGroups.AgeGroup,
       Data.[...],
FROM Data
JOIN AgeGroups ON Data.Age BETWEEN AgeGroups.Min AND AgeGroups.Max;

(这与Python无关。)