Question

RDD_1包含以下行：

(u'id2875421', 2, datetime.datetime(2016, 3, 14, 17, 24, 55), datetime.datetime(2016, 3, 14, 17, 32, 30), 1, -73.9821548461914, 40.76793670654297, -73.96463012695312, 40.765602111816406, u'N', 455)

RDD_2包含以下行：

(u'id2875421', 1.9505895451732258)

我想做的是以

的形式获取rdd

(u'id2875421', 2, datetime.datetime(2016, 3, 14, 17, 24, 55), datetime.datetime(2016, 3, 14, 17, 32, 30), 1, 1.9505895451732258, u'N', 455)

所以我试图用距离列替换位置列。

rdd1.join（rdd2）给我：

(u'id1585324', (1, 0.9773030754631484))

和rdd1.union（rdd2）给我：

(u'id2875421', 2, datetime.datetime(2016, 3, 14, 17, 24, 55), datetime.datetime(2016, 3, 14, 17, 32, 30), 1, -73.9821548461914, 40.76793670654297, -73.96463012695312, 40.765602111816406, u'N', 455)

Answer 1

IIUC，只需将第一个RDD转换为成对的RDD，然后加入：

rdd1.keyBy(lambda x: x[0]) \
    .join(rdd2) \
    .map(lambda x: x[1][0][:5] + (x[1][1],) + x[1][0][9:]) \
    .collect()

#[(u'id2875421',
#  2,
#  datetime.datetime(2016, 3, 14, 17, 24, 55),
#  datetime.datetime(2016, 3, 14, 17, 32, 30),
#  1,
#  1.9505895451732258,
#  u'N',
#  455)]

在这里，我使用keyBy()函数将 rdd1 的x [0]转换为键和原始元素作为值，然后加入 rdd2 并使用map （）函数选择最终元组中想要的内容。

将两个不同的RDD与两个不同的数据集组合在一起，但是使用相同的密钥

1 个答案: