Question

我有pandas DataFrame，我想使用df中的元素进行一些计算，然后将计算出的数字附加到同一df中的单独列中。

这是我现在的代码。

def percentfunction(df):
    for i in range(100): 
        if df['month_number'][i] == 10:
            df = df['percent_october'][i].add([df['cellsum'][i]/octobersum])
        elif df['month_number'][i] == 11:
            df = df['percent_november'][i].add([df['cellsum'][i]/novembersum])
        elif df['month_number'][i] == 12:
            df = df['percent_december'][i].add([df['cellsum'][i]/decembersum])

AttributeError: 'numpy.float64' object has no attribute 'add'

我已尝试过此代码的各种实现，但我总是收到错误消息。要么它到达最后一个元素然后写入仅包含计算的最后一个数字的列，要么在行中添加不应该添加任何内容的行。

批评欢迎！

编辑：试图编辑代码。

    def percentfunction(df):
        for i in range(100): 
            if df['month_number'][i] == 10:
                df['percent_october'][i] = df['cellsum'][i]/octobersum
            elif df['month_number'][i] == 11:
                df['percent_november'][i] = df['cellsum'][i]/novembersum
            elif df['month_number'][i] == 12:
                df['percent_december'][i] = df['cellsum'][i]/decembersum

我至少要运行这个，但这会填充不应该在行中的值......

EDIT2：以下是我的数据框样本

>>> df.head()
      Index          month_number        month_text  \
0     Name1                    10           October     
1     Name1                    11           November    
2     Name1                    12           December    
3     Name2                    10           October     
4     Name2                    11           November    

  2000 Unnamed: 4 2001 Unnamed: 6     2002 Unnamed: 8 2003    ...     \
0  NaN        NaN  NaN        NaN      NaN        NaN  NaN    ...      
1  NaN        NaN  NaN        NaN      NaN        NaN  NaN    ...      
2  NaN        NaN  NaN        NaN      NaN        NaN  NaN    ...      
3  NaN        NaN  NaN        NaN  2898.68       3120  NaN    ...      
4  NaN        NaN  NaN        NaN      NaN        NaN  NaN    ...      

  Unnamed: 28 2013 Unnamed: 30  2014 Unnamed: 32 2015 Unnamed: 34 2016  \
0         NaN  NaN         NaN   NaN         NaN  NaN         NaN  NaN   
1         NaN  NaN         NaN   NaN         NaN  NaN         NaN  NaN   
2         NaN  NaN         NaN   NaN         NaN  NaN         NaN  NaN   
3         NaN  NaN         NaN   NaN         NaN  NaN         NaN  NaN   
4         NaN  NaN         NaN  1.26         127  NaN         NaN  NaN   

  Unnamed: 36   cellsum  
0         NaN      3899  
1         NaN      7922  
2         NaN      2181  
3         NaN      3121  
4         NaN       127

这是我的DataFrame，'cellsum'是该行中所有“未命名”单元格的总和。我通过对所有数据进行求和来计算总月份总和，例如DataFrame中的十月单元格（octobersum）。然后，我想添加一个新列，其中包含的是cellum的百分比。我希望你能够明白。

Answer 1

你应该避免使用pandas循环。你需要这样的东西，然后你可以操作你想要的任何格式：

df["percent_month"] = df.groupby("month_number").apply(lambda x: x/x.sum())

Answer 2

一个简单的修复就是使用df.ix[]

df.ix[i,'percent_october'] = df.ix[i,'cellsum']/octobersum

如果您向我们展示df的样子，我们可能会为您提供更智能的解决方案，而不是循环使用不推荐的数据框

Pandas将float附加到for循环

2 个答案: