rdd转换在pyspark中获取k-gram元组

时间:2019-02-14 12:50:16

标签: python-3.x apache-spark pyspark rdd

说一句:“这是apache火花”。我希望能够将每个单词转换为k元组的元组列表。例如:k = 2,我应该得到[(apache,this),(apache,is)]一词。同样的是,火花等。

我首先在rdd上使用zipWithIndex,然后在转换函数中调用当前单词后面从1到k的循环。但是我不知道如何在某个索引处说出这个词,例如i-2,其中i是当前词的索引。

rdd.zipWithIndex().flatMap(lambda xi: func(xi,n))
def func(xi, n):
    x,i = xi
    l=[]
    for j in range(n):
        #Create tuple (word at i-j, x) but how

0 个答案:

没有答案