我是pyspark的新手,有人可以帮我实现一个简单的功能。 我有以下文字......
(Cortez,Rafael A.,SJSU)
(Cortez,Rafael A.,SJSU)
(Cortez,Rafael A.,MIT)
(Kemper,Karin Erika,SJSU)
(Kemper,Karin Erika,SDSU)
我需要根据提花相似性将它们分组到相似的聚类中。在普通的python中我会这样写:
similarGroups = {}
groupCount = 0
with open(fileName) as fd:
for line in fd:
if groupCount == 0:
similarGroups[groupCount] = [line]
groupCount += 1
else:
for group in similarGroups:
if (jaccardSimilarity(line,similarGroups[random.seed()]) > 80:
similarGroups[group].append(group)
else:
groupCount += 1:
similarGroups[groupCount] = [line]
print similarGroups
输出继电器:
{ '0' : '[(Cortez,Rafael A.,SJSU),(Cortez,Rafael A.,SJSU),(Cortez,Rafael A.,MIT)]',
'1' : '[(Kemper,Karin Erika,SJSU),(Kemper,Karin Erika,SDSU)]' }
有人可以指导我如何在pyspark中实现这个目标吗?
我对如何map
以及在pyspark中执行基本操作有基本的想法,但我不知道如何比较记录并动态分组。
由于