Question

我想训练一个流媒体kmeans模型，其中包含从kafka主题中消耗的数据。

我的问题是如何呈现kmeans streamig模型的数据

sc = SparkContext(appName="PythonStreamingKafka")
ssc = StreamingContext(sc, 30)

zkQuorum, topic = sys.argv[1:]
kvs = KafkaUtils.createStream(ssc, zkQuorum, "spark-streaming-consumer", {topic: 1})
lines = kvs.map(lambda x: x[1])

lines.pprint()

此输出（这些是我用'|'分隔的功能）：

1.0 | 2.0 | 0.0 | 21.0 | 2.0

然后我想这样做

model = StreamingKMeans(k=2, decayFactor=1.0).setRandomCenters(3, 1.0, 0)
model.trainOn(lines)

如果我将两片代码组合在一起，我会得到错误：

TypeError: Cannot convert type <type 'unicode'> into Vector

Answer 1

第一个问题是格式化从kafka中提取的流。以下是管道分离数据的工作原理

sc = SparkContext(appName="PythonStreamingKafka")
ssc = StreamingContext(sc, 30)

zkQuorum, topic = sys.argv[1:]
kvs = KafkaUtils.createStream(ssc, zkQuorum, "spark-streaming-consumer", {topic: 1})

raw = kvs.flatMap(lambda kafkaS: [kafkaS])
lines = raw.map(lambda xs: xs[1].split("|"))

lines = lines.map(lambda x: DenseVector(x))

第二个问题是数据的维度：setRandomCenters的第一个参数（它应与要素数量相同）

pyspark：使用从kafka检索到的数据训练kmeans流式传输

1 个答案: