我有一个包含13个特征和1个标签列的数据集,只有两个结果收入=< 50k或> 50K。 我试图查看整个数据集的每个要素与相同要素的值的分布,但仅包含> 50k个案例,以查看该给定子集的分布如何变化。 如果我这样做:
filtertable = table[table[column] == criteria]
适用于获取子集
但是在函数内部使用时:
def comparacion(tabla, columna, criterio):
completa = {}
criteria = {}
datos = tabla[tabla[columna] == criterio] #<- here is the problem
datos = tabla.drop(columna, axis=1)
titulos = datos.columns
for tit in titulos:
completa[tit] =
(tabla[tit].value_counts().astype(float))/len(tabla[tit])
criteria[tit] =
(datos[tit].value_counts().astype(float))/len(datos[tit])
return completa, criteria
由于某种原因,过滤不起作用,任何想法可能是什么问题?