Pandas将float附加到for循环

时间:2016-10-24 20:17:27

标签: python pandas for-loop dataframe append

我有pandas DataFrame,我想使用df中的元素进行一些计算,然后将计算出的数字附加到同一df中的单独列中。

这是我现在的代码。

def percentfunction(df):
    for i in range(100): 
        if df['month_number'][i] == 10:
            df = df['percent_october'][i].add([df['cellsum'][i]/octobersum])
        elif df['month_number'][i] == 11:
            df = df['percent_november'][i].add([df['cellsum'][i]/novembersum])
        elif df['month_number'][i] == 12:
            df = df['percent_december'][i].add([df['cellsum'][i]/decembersum])

AttributeError: 'numpy.float64' object has no attribute 'add'

我已尝试过此代码的各种实现,但我总是收到错误消息。要么它到达最后一个元素然后写入仅包含计算的最后一个数字的列,要么在行中添加不应该添加任何内容的行。

批评欢迎!

编辑:试图编辑代码。

    def percentfunction(df):
        for i in range(100): 
            if df['month_number'][i] == 10:
                df['percent_october'][i] = df['cellsum'][i]/octobersum
            elif df['month_number'][i] == 11:
                df['percent_november'][i] = df['cellsum'][i]/novembersum
            elif df['month_number'][i] == 12:
                df['percent_december'][i] = df['cellsum'][i]/decembersum

我至少要运行这个,但这会填充不应该在行中的值......

EDIT2:以下是我的数据框样本

>>> df.head()
      Index          month_number        month_text  \
0     Name1                    10           October     
1     Name1                    11           November    
2     Name1                    12           December    
3     Name2                    10           October     
4     Name2                    11           November    

  2000 Unnamed: 4 2001 Unnamed: 6     2002 Unnamed: 8 2003    ...     \
0  NaN        NaN  NaN        NaN      NaN        NaN  NaN    ...      
1  NaN        NaN  NaN        NaN      NaN        NaN  NaN    ...      
2  NaN        NaN  NaN        NaN      NaN        NaN  NaN    ...      
3  NaN        NaN  NaN        NaN  2898.68       3120  NaN    ...      
4  NaN        NaN  NaN        NaN      NaN        NaN  NaN    ...      

  Unnamed: 28 2013 Unnamed: 30  2014 Unnamed: 32 2015 Unnamed: 34 2016  \
0         NaN  NaN         NaN   NaN         NaN  NaN         NaN  NaN   
1         NaN  NaN         NaN   NaN         NaN  NaN         NaN  NaN   
2         NaN  NaN         NaN   NaN         NaN  NaN         NaN  NaN   
3         NaN  NaN         NaN   NaN         NaN  NaN         NaN  NaN   
4         NaN  NaN         NaN  1.26         127  NaN         NaN  NaN   

  Unnamed: 36   cellsum  
0         NaN      3899  
1         NaN      7922  
2         NaN      2181  
3         NaN      3121  
4         NaN       127

这是我的DataFrame,'cellsum'是该行中所有“未命名”单元格的总和。我通过对所有数据进行求和来计算总月份总和,例如DataFrame中的十月单元格(octobersum)。然后,我想添加一个新列,其中包含的是cellum的百分比。我希望你能够明白。

2 个答案:

答案 0 :(得分:2)

你应该避免使用pandas循环。你需要这样的东西,然后你可以操作你想要的任何格式:

df["percent_month"] = df.groupby("month_number").apply(lambda x: x/x.sum())

答案 1 :(得分:1)

一个简单的修复就是使用df.ix[]

df.ix[i,'percent_october'] = df.ix[i,'cellsum']/octobersum

如果您向我们展示df的样子,我们可能会为您提供更智能的解决方案,而不是循环使用不推荐的数据框