将基于统计的新列添加到数据框

时间:2020-08-21 06:37:16

标签: python pandas function if-statement statistics

这是我的第一个问题。我想建立一个统计模型。我有一个数据,我想在此数据框中添加一列。我希望此列显示一些统计数据。 例如我的数据框是这样的

DataFrame

例如,我要添加一个新列。我希望此列显示“红色汽车女孩”的D值大于所有汽车D的平均值。我该怎么做?我应该使用哪种方法来建立此统计模型。我拥有大量数据,无法手动计算所有汽车或自行车的均值。我需要一个带有if-else语句的函数,并添加一列来描述该行的D大于或小于平均值。

我的代码是这样的,但是我得到了关键错误0。

API_URL=${api_url}

1 个答案:

答案 0 :(得分:1)

使用Zeros[K][1] = Sum(Ones[K-1][C=1..T-1]) for C in 2..D-1: Zeros[K][C] = Zeros[K-1][C-1] Ones[K][1] = Sum(Zeros[K-1][C=1..T-1]) for C in 2..T-1: Ones[K][C] = Ones[K-1][C-1] 库可以公平地实现。假设您的Zeros[2][D]存储在变量 headers = { 'Accept': 'application/json', } params = ( ('blockNum', i), ) response = requests.get('https://xapi.esteem.app/get_block', headers=headers, params=params) data= response.json() file.write(data) file.write('\n') 中。

第1步-计算列的平均值

第2步-获取列值大于列均值的索引

第3步-将这些索引中的“值”设置为“真”

pandas

编辑1

  1. 将单个均值存储在字典中

  2. 分别计算值大于平均值的相应索引

  3. 将索引设置为DataFrame

df

输出

mean_D=df.loc[:,"D"].mean() df.loc[:,"E"]=False #Set Initially to 'False' implying D's mean is less than column mean indices=df[df.loc[:,"D"]>mean_D].index df.loc[indices,"E"]=True

True

from collections import defaultdict df=pd.DataFrame({"A":['car','car','car','bike','bike','bike'],"B":['red','red','blue','black','white','red'],"C":['girl','boy','boy','boy','girl','girl'],"D":[8,7,6,9,10,7]}) dict_car_bike=defaultdict(list) for i, temp in df.groupby("A"): dict_car_bike[temp.loc[:,"A"].unique()[0]]=temp.loc[:,"D"].mean() dict_car_bike=dict(dict_car_bike) df.loc[:,"E"]=False #Set Initially to 'False' implying D's mean is less than column mean indices_0=df[(df.A.astype(str)==list(dict_car_bike.keys())[0]) & (df.D>dict_car_bike[list(dict_car_bike.keys())[0]])].index indices_1=df[(df.A==list(dict_car_bike.keys())[1]) & (df.D>dict_car_bike[list(dict_car_bike.keys())[1]])].index df.loc[indices_0,"E"]=True df.loc[indices_1,"E"]=True

Output DataFrame