使用python

时间:2017-09-20 14:34:29

标签: python pandas dataframe

我已经获得了按比赛分类的学校测试数据,出于隐私目的,掩码组总数小于10(数据中用**表示,如果值为0,则表示为a。)。我想知道,如果我知道学区的总数和该地区的比赛总数,有可能让python找出使数据集完整的不同排列吗?例如:

School    Race          Total_Students    Students_Proficient    Percent_Proficient
1         White            141                 92                 65.2
1         Black            55                  23                 41.8
1         Hispanic         87                  36                 41.4
1         More than 1      15                  **                 40.0
1         Total            298                 157                52.7
2         White            **                  **                 **
2         Black            29                  15                 51.7
2         Hispanic         **                  **                 **
2         More than 1      **                  **                 **
2         Total            38                  20                 52.6
3         White            **                  **                 **
3         Black            **                  **                 **
3         More than 1      **                  **                 **
3         Total            **                  **                 **
District  White            2931                2305               78.6
District  Black            2788                1664               59.7
District  Hispanic         948                 602                63.5
District  More than 1      338                 256                75.7
District  Total            7005                4827               68.9

该区有150所奇怪的学校,所以我只在这里举几个例子来说明。显然有些值很容易确定,例如,如果我知道学生人数和%熟练,我可以得到得分高于3的学生。此外,还有一些只有1个种族类别是未知的,可以很容易地确定知道学校总数。这是其他人,有多个缺失值(或全部缺失)。所以我很好奇的是我如何让python做一些事情,比如返回可能的解决方案的数量,或者返回一个可能的数据帧解决方案列表。我意识到会有多种可能的解决方案,所以虽然结果对我正在研究的项目没有用(我正在努力从学校获取未掩盖的数据)我更好奇这是怎么回事我正在努力学习更多python。我能找到的关于缺失数据的所有内容更多的是关于填写群体平均值等等,但我没有看到任何指向我正确方向的东西。

我应该补充一点,我不是特意找答案(虽然我会接受),但至少有一些关于如何处理的建议。

0 个答案:

没有答案