我的文本文件中有一个庞大的数据库,我想为跳过克模型进行训练。 我已将数据从文件拆分为列表 现在我想用它们的出现次数计算单词并制作一个字典,将单词作为字典的关键字和频率作为值。这是我的代码片段
df['index'] = df['index'].fillna(0).astype(int).astype(str)
cols = ['index', 'current_tm', 'dummy']
idx = df['dummy'].notnull().index
df.loc[idx, cols] = df.loc[idx, cols].shift(-1, axis=1)
df = df.drop('dummy', axis=1)
df['index'] = df['index'].astype(int)
print (df)
country index current_tm
0 india 905034 19:44
1 USA 905094 19:33
2 Russia 905154 21:56
我已成功制作了一个列表,其中的单词及其频率高达第一个最常见的50000个单词,现在我需要将它们提供给字典,键作为单词和值作为freq。
<li>
<label>Sales Tax:</label>
<span>$204.61</span>
</li>
任何人都可以帮助我吗?
答案 0 :(得分:1)
假设您已经有一个单词列表,这里是根据您的需要从中绘制字典的方法:
word_dict[word_count[0]]
你的列表包含元组,所以key
,所以我在字典中放置第一项元组作为word_count[1]
,在元组中放置第二项value
,计为{ {1}} key