在pyspark

时间:2015-07-19 07:53:40

标签: python apache-spark pyspark

我是pyspark的新手,有人可以帮我实现一个简单的功能。 我有以下文字......

(Cortez,Rafael A.,SJSU)
(Cortez,Rafael A.,SJSU)
(Cortez,Rafael A.,MIT)
(Kemper,Karin Erika,SJSU)
(Kemper,Karin Erika,SDSU)

我需要根据提花相似性将它们分组到相似的聚类中。在普通的python中我会这样写:

similarGroups = {}
groupCount = 0
with open(fileName) as fd:
    for line in fd:

        if groupCount == 0:
           similarGroups[groupCount] = [line]
           groupCount += 1

        else:
           for group in similarGroups:
               if (jaccardSimilarity(line,similarGroups[random.seed()]) > 80:
                   similarGroups[group].append(group)
               else:
                   groupCount += 1:
                   similarGroups[groupCount] = [line]
print similarGroups

输出继电器:

{ '0' : '[(Cortez,Rafael A.,SJSU),(Cortez,Rafael A.,SJSU),(Cortez,Rafael A.,MIT)]',
'1' : '[(Kemper,Karin Erika,SJSU),(Kemper,Karin Erika,SDSU)]' }

有人可以指导我如何在pyspark中实现这个目标吗?

我对如何map以及在pyspark中执行基本操作有基本的想法,但我不知道如何比较记录并动态分组。

由于

0 个答案:

没有答案