我已经获得了按比赛分类的学校测试数据,出于隐私目的,掩码组总数小于10(数据中用**表示,如果值为0,则表示为a。)。我想知道,如果我知道学区的总数和该地区的比赛总数,有可能让python找出使数据集完整的不同排列吗?例如:
School Race Total_Students Students_Proficient Percent_Proficient
1 White 141 92 65.2
1 Black 55 23 41.8
1 Hispanic 87 36 41.4
1 More than 1 15 ** 40.0
1 Total 298 157 52.7
2 White ** ** **
2 Black 29 15 51.7
2 Hispanic ** ** **
2 More than 1 ** ** **
2 Total 38 20 52.6
3 White ** ** **
3 Black ** ** **
3 More than 1 ** ** **
3 Total ** ** **
District White 2931 2305 78.6
District Black 2788 1664 59.7
District Hispanic 948 602 63.5
District More than 1 338 256 75.7
District Total 7005 4827 68.9
该区有150所奇怪的学校,所以我只在这里举几个例子来说明。显然有些值很容易确定,例如,如果我知道学生人数和%熟练,我可以得到得分高于3的学生。此外,还有一些只有1个种族类别是未知的,可以很容易地确定知道学校总数。这是其他人,有多个缺失值(或全部缺失)。所以我很好奇的是我如何让python做一些事情,比如返回可能的解决方案的数量,或者返回一个可能的数据帧解决方案列表。我意识到会有多种可能的解决方案,所以虽然结果对我正在研究的项目没有用(我正在努力从学校获取未掩盖的数据)我更好奇这是怎么回事我正在努力学习更多python。我能找到的关于缺失数据的所有内容更多的是关于填写群体平均值等等,但我没有看到任何指向我正确方向的东西。
我应该补充一点,我不是特意找答案(虽然我会接受),但至少有一些关于如何处理的建议。