我已经开始从Python编程集体智慧这本书中解决一些练习。问题二是: 使用del.icio.us API,创建标记和项目的数据集。使用它来计算标签之间的相似性,看看你是否能找到几乎相同的标签。找一些可能被标记为“编程”但未被标记的项目。
到目前为止,我创建了一个字典,我从一个名为tags.txt的文本文件中解析数据。
def asd():
d = dict()
for line in open("tags.txt"):
if len(line.strip().split("\t")) == 23:
url, number_of_saves, data_of_first_save, tag1, tagCount1, tag2, tagCount2, tag3, tagCount3, tag4, tagCount4, tag5,tagCount5,\
tag6, tagCount6, tag7, tagCount7, tag8, tagCount8, tag9, tagCount9, tag10, tagCount10 = line.strip().split("\t")
tags = [tag1,tag2,tag3,tag4,tag5,tag6,tag7,tag8,tag9,tag10]
tagCounts = [tagCount1,tagCount2,tagCount3,tagCount4,tagCount5,tagCount6,tagCount7,tagCount8,tagCount9,tagCount10]
d.setdefault(url, {})
for index, tag in enumerate(tags):
d[url][tag] = tagCounts[index]
return d
我的问题是我怎样才能找到使用这个词典的标签之间的相似之处?
答案 0 :(得分:0)
“用它来计算标签之间的相似性”
“几乎相同”
考虑Levenshtein distance:“ Levenshtein距离是用于测量两个序列之间差异的字符串度量”。