Question

我有两个不同的列表，我需要根据它们的名称从中提取数据，然后将它们相乘。

我有这个清单：

query_tfidf = [0.8465735902799727, 0.8465735902799727]
documents_query = [['Aftonbladet', 'play', 0.0], ['Aftonbladet', 'free', 0.0],
 ['Radiosporten Play', 'play', 0.10769448286014331], ['Radiosporten Play', 'free', 0.0]]

我需要根据他们的名字对它们进行排序，例如：

{Aftonbladet: {play: 0.0, free: 0.0}, Radiosporten Play: {play: 0.10769448286014331, free: 0.0}

然后我需要从每个数据中提取数据并与query_tfidf相乘并计算两个变量。例如：

for each name:
    dot_product = (play_value * query_tfidf[0]) + (free_value * query_tfidf[1])
    query = sqrt((query_tfidf[0])^2 + (query_tfidf[1])^2)
    document = sqrt((play_value)^2 + (free_value)^2)

我有点绝望所以我想在这里问一下。我正在使用python 2.7。

Answer 1

使用collections.defaultdict汇总您的数据

from collections import defaultdict

results = defaultdict(dict)
for main_key, key, value in documents_query:
    results[main_key][key] = value

# dict(results)
# Out[16]: 
# {'Aftonbladet': {'free': 0.0, 'play': 0.0},
#  'Radiosporten Play': {'free': 0.0, 'play': 0.10769448286014331}}

稍后你要做的事情有点不清楚......但是你应该自己搞清楚，对吗？

Answer 2

使用词典对documents_query中的条目根据其名称和关键字进行排序非常简单：

indexedValues = {}
for entry in documents_query:
    if entry[0] not in indexedValues:
        indexedValues[entry[0]] = {}
    indexedValues[entry[0]][entry[1]] = entry[2]

这会给你indexedValues看起来像你要求的那样：

{'Aftonbladet': {'play': 0.0, 'free': 0.0}, 'Radiosporten Play': {'play': 0.10769448286014331, 'free': 0.0}

如何从两个不同的列表中提取数据

2 个答案: