说一句:“这是apache火花”。我希望能够将每个单词转换为k元组的元组列表。例如:k = 2,我应该得到[(apache,this),(apache,is)]一词。同样的是,火花等。
我首先在rdd上使用zipWithIndex,然后在转换函数中调用当前单词后面从1到k的循环。但是我不知道如何在某个索引处说出这个词,例如i-2,其中i是当前词的索引。
rdd.zipWithIndex().flatMap(lambda xi: func(xi,n))
def func(xi, n):
x,i = xi
l=[]
for j in range(n):
#Create tuple (word at i-j, x) but how