Question

我有一个这样的数据框：

Interesting           genre_1        probabilities
    1    no            Empty        0.251306
    2    yes           Empty        0.042043
    3     no          Alternative    5.871099
    4    yes         Alternative    5.723896
    5    no           Blues         0.027028
    6    yes          Blues         0.120248
    7    no          Children's     0.207213
    8    yes         Children's     0.426679
    9    no          Classical      0.306316
    10    yes         Classical      1.044135

我想根据有趣的一列对同一类别执行GINI索引。之后，我想在新的pandas栏中添加这样的值。

这是获取基尼系数的函数：

#Gini Function
#a and b are the quantities of each class
def gini(a,b):
    a1 = (a/(a+b))**2
    b1 = (b/(a+b))**2
    return 1 - (a1 + b1)

编辑*对不起，我最终想要的数据框出现错误。选择prob（A）和prob（B）时，有趣与否无关紧要，但基尼分数将相同，因为它将衡量我们将一首歌曲归类为有趣与否的程度。因此，如果概率在50/50％左右，则意味着基尼分数将达到最大值（0.5），这是因为同样有可能会被错误地选择是否感兴趣。

因此对于前两行，基尼索引将为：

a=no; b=Empty -> gini(0.251306, 0.042043)= 0.245559831601612
a=yes; b=Empty -> gini(0.042043, 0.251306)= 0.245559831601612

然后我想得到类似的东西：

 Interesting           genre_1        percentages.  GINI INDEX
        1    no            Empty        0.251306         0.245559831601612
        2    yes           Empty        0.042043         0.245559831601612
        3     no          Alternative    5.871099         0.4999194135183881
        4    yes         Alternative    5.723896.     0.4999194135183881
        5    no           Blues         0.027028          ..
        6    yes          Blues         0.120248
        7    no          Children's     0.207213
        8    yes         Children's     0.426679
        9    no          Classical      0.306316          ..
        10    yes         Classical      1.044135         ..

Answer 1

我不确定Interesting列如何参与所有这些工作，但是我强烈建议您使用numpy.where()来创建新列。语法类似于：

import numpy as np
df['GINI INDEX'] = np.where(__condition__,__what to do if true__,__what to do if false__)

Answer 2

好的，我想我知道你的意思。如果兴趣值是“是”或“否”，则下面的代码无关紧要。但是，您想要的是根据该行的有趣值中的值，以两种不同的方式为每一行计算GINI系数。因此，如果有趣==否，则结果为0.5，因为a == b。但是，如果有趣的是“是”，则需要使用a =概率[i]和b =概率[i + 1]。因此，请跳过本节以获取下面的更新代码。

import pandas as pd


df = pd.read_csv('df.txt',delim_whitespace=True)

probs = df['probabilities']


def ROLLING_GINI(probabilities):

    a1 = (probabilities[0]/(probabilities[0]+probabilities[0]))**2
    b1 = (probabilities[0]/(probabilities[0]+probabilities[0]))**2
    res = 1 - (a1 + b1)
    yield res

    for i in range(len(probabilities)-1):
        a1 = (probabilities[i]/(probabilities[i]+probabilities[i+1]))**2
        b1 = (probabilities[i+1]/(probabilities[i]+probabilities[i+1]))**2
        res = 1 - (a1 + b1)
        yield res


df['GINI'] = [val for val in ROLLING_GINI(probs)]

print(df)

这是真正的麻烦开始的地方，因为如果我正确理解了您的想法，那么您将无法计算最后的GINI值，因为您的数据框不允许这样做。这里重要的一点是，数据框中最后一个有趣的值是“是”。这意味着我必须使用a =概率[i]和b =概率[i + 1]。但是您的数据框没有行号11。您有10行，在第i == 10行上，您需要在第11行中有一个概率来计算GINI系数。因此，为了使您的想法生效，最后一个有趣的值必须为'no'，否则您总是会遇到索引错误。

反正这是代码：

import pandas as pd

df = pd.read_csv('df.txt',delim_whitespace=True)


def ROLLING_GINI(dataframe):

    probabilities = dataframe['probabilities']
    how_to_calculate = dataframe['Interesting']

    for i in range(len(dataframe)-1):

        if how_to_calculate[i] == 'yes':
            a1 = (probabilities[i]/(probabilities[i]+probabilities[i+1]))**2
            b1 = (probabilities[i+1]/(probabilities[i]+probabilities[i+1]))**2
            res = 1 - (a1 + b1)
            yield res

        elif how_to_calculate[i] == 'no':
            a1 = (probabilities[i]/(probabilities[i]+probabilities[i]))**2
            b1 = (probabilities[i]/(probabilities[i]+probabilities[i]))**2
            res = 1 - (a1 + b1)
            yield res


GINI = [val for val in ROLLING_GINI(df)]

print('All GINI coefficients: %s'%GINI)
print('Length of all calculatable GINI coefficients: %s'%len(GINI))
print('Number of rows in the dataframe: %s'%len(df))
print('The last Interesting value is: %s'%df.iloc[-1,0])

编辑第三个（对不起，很晚才实现）：

因此，如果我正确应用索引，它确实可以工作。问题是我想使用 Next 概率，而不是前一个概率。所以它是a =概率[i-1]和b =概率[i]

import pandas as pd

df = pd.read_csv('df.txt',delim_whitespace=True)


def ROLLING_GINI(dataframe):

    probabilities = dataframe['probabilities']
    how_to_calculate = dataframe['Interesting']

    for i in range(len(dataframe)):

        if how_to_calculate[i] == 'yes':
            a1 = (probabilities[i-1]/(probabilities[i-1]+probabilities[i]))**2
            b1 = (probabilities[i]/(probabilities[i-1]+probabilities[i]))**2
            res = 1 - (a1 + b1)
            yield res

        elif how_to_calculate[i] == 'no':
            a1 = (probabilities[i]/(probabilities[i]+probabilities[i]))**2
            b1 = (probabilities[i]/(probabilities[i]+probabilities[i]))**2
            res = 1 - (a1 + b1)
            yield res


GINI = [val for val in ROLLING_GINI(df)]

print('All GINI coefficients: %s'%GINI)
print('Length of all calculatable GINI coefficients: %s'%len(GINI))
print('Number of rows in the dataframe: %s'%len(df))
print('The last Interesting value is: %s'%df.iloc[-1,0])

根据行的操作添加新的熊猫df列

2 个答案: