我有两个不同的列表,我需要根据它们的名称从中提取数据,然后将它们相乘。
我有这个清单:
query_tfidf = [0.8465735902799727, 0.8465735902799727]
documents_query = [['Aftonbladet', 'play', 0.0], ['Aftonbladet', 'free', 0.0],
['Radiosporten Play', 'play', 0.10769448286014331], ['Radiosporten Play', 'free', 0.0]]
我需要根据他们的名字对它们进行排序,例如:
{Aftonbladet: {play: 0.0, free: 0.0}, Radiosporten Play: {play: 0.10769448286014331, free: 0.0}
然后我需要从每个数据中提取数据并与query_tfidf
相乘并计算两个变量。例如:
for each name:
dot_product = (play_value * query_tfidf[0]) + (free_value * query_tfidf[1])
query = sqrt((query_tfidf[0])^2 + (query_tfidf[1])^2)
document = sqrt((play_value)^2 + (free_value)^2)
我有点绝望所以我想在这里问一下。我正在使用python 2.7。
答案 0 :(得分:1)
使用collections.defaultdict
汇总您的数据
from collections import defaultdict
results = defaultdict(dict)
for main_key, key, value in documents_query:
results[main_key][key] = value
# dict(results)
# Out[16]:
# {'Aftonbladet': {'free': 0.0, 'play': 0.0},
# 'Radiosporten Play': {'free': 0.0, 'play': 0.10769448286014331}}
稍后你要做的事情有点不清楚......但是你应该自己搞清楚,对吗?
答案 1 :(得分:1)
使用词典对documents_query
中的条目根据其名称和关键字进行排序非常简单:
indexedValues = {}
for entry in documents_query:
if entry[0] not in indexedValues:
indexedValues[entry[0]] = {}
indexedValues[entry[0]][entry[1]] = entry[2]
这会给你indexedValues
看起来像你要求的那样:
{'Aftonbladet': {'play': 0.0, 'free': 0.0}, 'Radiosporten Play': {'play': 0.10769448286014331, 'free': 0.0}