Python:如何有效地获得余弦相似度矩阵

时间:2017-07-13 22:20:02

标签: python numpy gensim cosine-similarity

有2个数组分别包含30,000个向量和50000个向量。

Item_array = [item1,item2,...,item30000]
User_array = [user1,user2,...,user50000]

数组中的每个向量都是使用Gensim的tfidf值。

例如:

Item_array[0] = [(0, 0.03663947221807151),(2, 0.09781584692664856),(10, 0.07212302141012294)]

我正在尝试构建一个项目用户矩阵,用于对每个用户的类似项目进行排序。 For-loop方法花费了我很多时间来完成它。

我应该如何有效地处理这个问题。任何帮助都应该是值得的。

这是我预期的输出:

           user1 user2 user3 ... user50000
item1      0.35  0.45  0.86        0.46
item2      0.42  0.32  0.53        0.53          
item3      0.65  0.33  0.45        0.46        
...        ...   ...   ...         ... 
item50000  0.54  0.33  0.00        1.00

0 个答案:

没有答案