我在笔记本中导入了两个数据集。其中包括每年在每个州给婴儿的名字(及其数量,[计数])。另一个人是在美国拥有该特定名字的总人数。 (请参阅添加的图像)。
这里的问题是我追加了两个数据集,以使它们成为一个数据集,因为合并和concat无效。
我想在所有提到该州的所有列旁边创建一个“ Totalcount”列(而不是NAN),以便我可以将婴儿名与每个州的特定名字的国家计数进行比较。
例如:1934年,得克萨斯州有4个婴儿被命名为“安娜”。 1934年,在美国名为“安娜”的人数是14000。那时,“总数”的人数应该是14000。该数字也应为14000,与其他州相邻。 因此:在加利福尼亚州有5个婴儿被命名为“安娜”,总数仍为14000。我尝试了很多事情,但我不知道。
示例状态数据集:
df = pd.DataFrame([['AF',1910.0, 'F', 'Mary', 14.0], ['TX',1910.0, 'M' , 'Lex', 15.0], ['CA',1920.0,'M','Tom', 14.0]], columns=['State', 'Sex','Year','Name','Count'])
国家数据集示例:
df2 = pd.DataFrame([['Anna','F', 2402,1910], ['Ben','M',5044,1912], ['Simon','M',39203,1910]], columns=['Name', 'Sex','Count','Year'])
df2