我想通过以下方式更新我的df“ co_names_df_1”中的“频率”列 字典“计数”中的值:
counts:
Counter({u'Apple': 1638, u'Facebook': 1169, u'Amazon': 1027, u'Boeing': 548, u'Microsoft': 437, u'JPMorgan': 435, u'Nasdaq': 364, u'Williams': 296, u'Disney': 270, u'Netflix': 260, u'Chevron': 258, u'Comcast': 213, u'CBS': 200, u'Carnival': 193, u'Intel': 188, u'IBM': 172, u'Starbucks': 165, u'Target': 143, u'Monsanto': 141, u'PayPal': 133, u'Viacom': 126, u'Equifax': 124, u'Anthem': 123, u'Pfizer': 121, u'Nike': 121, u'Caterpillar': 119, u'Citigroup': 116, u'AIG': 116, u'HP': 109, u'Aetna': 109, u'BlackRock': 109 ...
co_names_df_1:
Name Frequency
0 3M 0
1 A.O. Smith 0
2 Abbott 0
3 AbbVie 0
4 Accenture 0
5 Activision 0
6 Acuity Brands 0 ...
答案 0 :(得分:0)
以下内容循环访问counts
中的键,并将数据帧Frequency
中的co_names_df_1
值设置为与counts
中的键关联的值。
from collections import Counter
counts = Counter({u'Apple': 1638, u'Facebook': 1169, u'Amazon': 1027, u'Boeing': 548,})
for x in counts:
co_names_df_1['Frequency'][co_names_df_1['Name']==x] = counts[x] # updates dataframe values based on those in counts
更新:
如下所示,使用pandas的.map()
方法似乎比上述for循环的运行速度更快(至少在这套包含4个键:值对的小样本集上)。
co_names_df_1['Frequency'] = co_names_df_1['Name'].map(counts)
在Jupyter笔记本电脑电池中使用%%time
,.map()
方法运行大约需要488 µs,而for循环方法则需要大约1.24s
答案 1 :(得分:0)
您可以使用Series.map
:
import collections
import pandas as pd
c = collections.Counter({u'Apple': 1638, u'Facebook': 1169, u'Amazon': 1027, u'Boeing': 548, u'Microsoft': 437, u'JPMorgan': 435, u'Nasdaq': 364, u'Williams': 296, u'Disney': 270, u'Netflix': 260, u'Chevron': 258, u'Comcast': 213, u'CBS': 200, u'Carnival': 193, u'Intel': 188,
u'IBM': 172, u'Starbucks': 165, u'Target': 143, u'Monsanto': 141, u'PayPal': 133, u'Viacom': 126, u'Equifax': 124, u'Anthem': 123, u'Pfizer': 121, u'Nike': 121, u'Caterpillar': 119, u'Citigroup': 116, u'AIG': 116, u'HP': 109, u'Aetna': 109, u'BlackRock': 109})
df = pd.DataFrame({'Name': {0: '3M',
1: 'A.O. Smith',
2: 'Abbott',
3: 'AbbVie',
4: 'Accenture',
5: 'Activision',
6: 'Acuity Brands',
7: 'AIG'},
'Frequency': {0: 0, 1: 0, 2: 0, 3: 0, 4: 0, 5: 0, 6: 0, 7: 10}})
df['Frequency'] = df['Name'].map(c)
print(df)
收益
Name Frequency
0 3M 0
1 A.O. Smith 0
2 Abbott 0
3 AbbVie 0
4 Accenture 0
5 Activision 0
6 Acuity Brands 0
7 AIG 116
我添加一行,df
,以显示一个非平凡的结果。
当没有在c
,Series.map(c)
叶单独系列的相应键。因此,只有c
中具有相应键的行会被更新。