下面是Recommend.py 编写集体智慧编写第2章的代码。
以下代码是从偏好词典中返回人物的最佳匹配,并通过使用每个其他用户排名的加权平均值获得某人的推荐
from math import sqrt
critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5,'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You, Me and Dupree': 2.5,'The Night Listener': 3.0},'Gene Seymour': {'Lady in the Water': 3.0, 'Snakes on a Plane': 3.5,'Just My Luck': 1.5, 'Superman Returns': 5.0, 'The Night Listener': 3.0,'You, Me and Dupree': 3.5},'Michael Phillips': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.0,'Superman Returns': 3.5, 'The Night Listener': 4.0},'Claudia Puig': {'Snakes on a Plane': 3.5, 'Just My Luck': 3.0,'The Night Listener': 4.5, 'Superman Returns': 4.0,'You, Me and Dupree': 2.5},'Mick LaSalle': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0,'Just My Luck': 2.0, 'Superman Returns': 3.0, 'The Night Listener': 3.0,'You, Me and Dupree': 2.0},'Jack Matthews': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0,'The Night Listener': 3.0, 'Superman Returns': 5.0, 'You, Me and Dupree': 3.5},'Toby': {'Snakes on a Plane':4.5,'You, Me and Dupree':1.0,'Superman Returns':4.0}}
def sim_distance(prefs,person1,person2): # Get the list of shared_items
si={}
for item in prefs[person1]:
if item in prefs[person2]:
si[item]=1
# if they have no ratings in common, return 0
if len(si)==0:
return 0
# Add up the squares of all the differences
sum_of_squares=sum([pow(prefs[person1][item]-prefs[person2][item],2)
for item in prefs[person1] if item in prefs[person2]])
return 1/(1+sum_of_squares)
我刚开始使用python,所以我很困惑这两个循环之间有什么区别:
在开始时,
for item in prefs[person1]:
if item in prefs[person2]:
最后,
for item in prefs[person1] if item in prefs[person2]])
此外,他们在实现中使用平方根,在此代码中,它们没有使用。那么,这仅仅是一个例子还是我们不在代码中使用? 另外,如果这两个for循环相同,那么当我像这样应用第二个for循环时,它们会给出不同的答案。
for item in prefs[person1]:
if item in prefs[person2]:
sum_of_squares=sum([pow(prefs[person1][item]-prefs[person2][item],2)])
答案 0 :(得分:1)
此外,他们在实现中使用平方根,在此代码中,它们没有使用。那么,这仅仅是一个例子还是我们不在代码中使用?
请通过O' Reilly Media
查看此链接The 'Unconfirmed' errata for this mistake
最后一个方法应该是return 1/(1+*sqrt(sum_of_squares))
,当然你可以在代码中使用它。
此外,该示例中也存在错误。坐标错了。请参阅链接
正如评论中所提到的,第一次循环会检查他们共有多少个评分。
>>> recommendations.sim_distance(recommendations.critics,'Lisa Rose','Toby')
[FOR] Lisa : Lady in the Water
[FOR] Lisa : Snakes on a Plane
[IF] Toby : Snakes on a Plane
[FOR] Lisa : Just My Luck
[FOR] Lisa : Superman Returns
[IF] Toby : Superman Returns
[FOR] Lisa : You, Me and Dupree
[IF] Toby : You, Me and Dupree
[FOR] Lisa : The Night Listener
0.3483314773547883
第二个循环迭代减法的项目值(评级)。
根据上面的列表,这个循环必须进行3次迭代 (FOR == person1,IF == person2)。