如何在pandas dataframe

时间:2017-10-25 20:31:32

标签: python-2.7 pandas

我有一个包含13个特征和1个标签列的数据集,只有两个结果收入=< 50k或> 50K。 我试图查看整个数据集的每个要素与相同要素的值的分布,但仅包含> 50k个案例,以查看该给定子集的分布如何变化。 如果我这样做:

filtertable = table[table[column] == criteria]

适用于获取子集

但是在函数内部使用时:

def comparacion(tabla, columna, criterio):
    completa = {}
    criteria = {}
    datos = tabla[tabla[columna] == criterio] #<- here is the problem
    datos = tabla.drop(columna, axis=1)
    titulos = datos.columns
    for tit in titulos:
        completa[tit] = 
        (tabla[tit].value_counts().astype(float))/len(tabla[tit])
        criteria[tit] = 
        (datos[tit].value_counts().astype(float))/len(datos[tit])
    return completa, criteria

由于某种原因,过滤不起作用,任何想法可能是什么问题?

0 个答案:

没有答案