我有一个数据集,并希望计算分类变量的加权汇总统计量。 (类似于this问题,但是具有分类数据,例如$date = date('Y-m-d',strtotime($inputdate))." 00:00:00";
/ yes
/ no
)。
样本数据集:
maybe
我现在想获得由import pandas as pd
import numpy as np
np.random.seed(43)
## prep mock data
N = 100
country = np.random.choice(['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff'], N)
response = np.random.choice(['yes','no','maybe','do not know'], N)
weight = np.random.randint(low = 5, high = 40, size = N)
df = pd.DataFrame({'country': country, 'response': response, 'weight': weight})
列调整并由weight
列分组的响应的归一化值计数。
不称重的方法是
country
我知道我必须“简单地”使用“加权值计数”,但似乎找不到它。我确定它就在那里-有人可以向我指出正确的方向吗? 多谢。