Question

我有一个包含13个特征和1个标签列的数据集，只有两个结果收入=＆lt; 50k或> 50K。我试图查看整个数据集的每个要素与相同要素的值的分布，但仅包含＆gt; 50k个案例，以查看该给定子集的分布如何变化。如果我这样做：

filtertable = table[table[column] == criteria]

适用于获取子集

但是在函数内部使用时：

def comparacion(tabla, columna, criterio):
    completa = {}
    criteria = {}
    datos = tabla[tabla[columna] == criterio] #<- here is the problem
    datos = tabla.drop(columna, axis=1)
    titulos = datos.columns
    for tit in titulos:
        completa[tit] = 
        (tabla[tit].value_counts().astype(float))/len(tabla[tit])
        criteria[tit] = 
        (datos[tit].value_counts().astype(float))/len(datos[tit])
    return completa, criteria

由于某种原因，过滤不起作用，任何想法可能是什么问题？

如何在pandas dataframe

0 个答案: