我有这行代码:
<scala> val quoteRDD = sc.parallelize("\"")
quoteRDD: org.apache.spark.rdd.RDD[Char] = ParallelCollectionRDD[0] at parallelize
如何让这个RDD保存&#34; \&#34;&#34;作为字符串数据类型? Spark说它是一个char,但我需要一个字符串数据类型。
你能帮助我改变这种变化吗?
由于
答案 0 :(得分:1)
SparkContext.parallelize
有以下签名
def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T]
和String
可以代替(with implicit conversions)Seq[Char]
。
如果你真的想要创建单个元素RDD[String]
(对此没用多少,但我们称之为练习)添加Seq
包装器:
val quoteRDD = sc.parallelize(Seq("\""))