我有一个数据集,其中包含视频游戏,其销售情况以及该游戏的发行年份。我只是在寻找每年的游戏销量,而不是每年每个游戏的销量。
我正在使用熊猫数据框。我尝试了groupby方法。我已经尝试过使用.unique()值进行循环。
df = df[["Year", "NA_Sales"]]
df.Year = df.Year.astype(int)
df2 = df
df2.Year = df.Year.unique()
df2 = df.groupby(['Year'])['NA_Sales'].sum()
预期结果将是一个数据框,其中包括一列唯一年份的值以及该年所有视频游戏销售的一列
答案 0 :(得分:1)
您可以使用
df.groupby('Year', as_index=False)['NA_Sales'].sum()
答案 1 :(得分:0)
这对我有用:
import pandas as pd
path = r'your path'
wb = pd.read_excel(path)
df = pd.DataFrame(wb)
df.style.hide_index()
df1 = df[['YEAR', 'NA_SALES']]
GB=df1.groupby([df1['YEAR']]).sum()
请确保在创建DataFrame
时dtype
不是str
。