如何从另一个LabeledPoint形成LabeledPoint,用PySpark中的随机数替换其中一个值

时间:2016-01-21 16:10:13

标签: python random apache-spark pyspark

我有LabeledPoint label1,其中包含(12,24)(-21.3,-17.49)等值。不,我想要形成另一个LabeledPoint label21st value作为1st value来自label1,但第二个值应该是+2的随机差异来自-2的{​​1}}或1st value。因此(12,24) label2 12 1st value2nd value 10 14之间的随机数log x=0.0795 +2和-2来自12)。

我该怎么做?

1 个答案:

答案 0 :(得分:0)

我假设您的RDD为LabeledPoints,当您引用“第一个值”时,您指的是标签,而第二个值指的是该功能( S)?顺便说一下,据我所知,这些功能必须是一个清单...

无论如何,像下面这样的东西能实现你想要的吗?

import random

rdd.map(lambda x: LabeledPoint(x.label, [i + random.choice([2, -2]) for i in x.features]))