Question

我在笔记本中导入了两个数据集。其中包括每年在每个州给婴儿的名字（及其数量，[计数]）。另一个人是在美国拥有该特定名字的总人数。（请参阅添加的图像）。

这里的问题是我追加了两个数据集，以使它们成为一个数据集，因为合并和concat无效。

我想在所有提到该州的所有列旁边创建一个“ Totalcount”列（而不是NAN），以便我可以将婴儿名与每个州的特定名字的国家计数进行比较。

例如：1934年，得克萨斯州有4个婴儿被命名为“安娜”。 1934年，在美国名为“安娜”的人数是14000。那时，“总数”的人数应该是14000。该数字也应为14000，与其他州相邻。因此：在加利福尼亚州有5个婴儿被命名为“安娜”，总数仍为14000。我尝试了很多事情，但我不知道。

The dataset, above: the national count of names in each year, but without the States. Under: The count of certain babynames which are given in each state, I appended these two datasets since merging or concat didn't work.

示例状态数据集：

df = pd.DataFrame([['AF',1910.0, 'F', 'Mary', 14.0], ['TX',1910.0, 'M' , 'Lex', 15.0], ['CA',1920.0,'M','Tom', 14.0]], columns=['State', 'Sex','Year','Name','Count'])

国家数据集示例：

df2 = pd.DataFrame([['Anna','F', 2402,1910], ['Ben','M',5044,1912], ['Simon','M',39203,1910]], columns=['Name', 'Sex','Count','Year'])
df2

熊猫：为熊猫中的婴儿名字和国家名字添加新的列total_count？

0 个答案: