Question

我有一个简单的界限：

line = "Hello, world"

我想将它转换为只有一个元素的RDD。我试过了

sc.parallelize(line)

但它得到了：

sc.parallelize(line).collect()
['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd']

有什么想法吗？

Answer 1

尝试使用List作为参数：

sc.parallelize(List(line)).collect()

它返回

res1: Array[String] = Array(hello,world)

Answer 2

下面的代码在Python中可以正常工作

sc.parallelize（[line]）。collect（）

['Hello，world']

在这里，我们将参数“ line”作为列表传递。

Answer 3

使用以下代码：

sc.parallelize(Seq(line))