如何在熊猫的某个数据框的特定列中每个唯一值获取N行?
例如,如果country
中的目标列,那么我可以为每个国家/地区选择10000行,
# df is a pandas dataframe
N = 10000
columns = list(df)
balanced_df = pd.DataFrame(columns=columns)
for country in df.country.unique():
tempdf = df[df['country'] == country]
sample_tempdf = tempdf.sample(N)
balanced_df = balanced_df.append(sample_tempdf)
是否有更好的方法(在性能和/或代码清晰度方面更明智)做到这一点?