Spark scala:将Iterator [char]转换为RDD [String]

时间:2018-03-13 16:46:06

标签: apache-spark

我正在从文件中读取数据,并且已到达数据类型为Iterator [char]的点。有没有办法将Iterator [char]转换为RDD [String]?然后我可以使用案例类转换为Dataframe / Dataset。

以下是代码:

val fileDir = "inputFileName"
val result = IOUtils.toByteArray(new FileInputStream (new File(fileDir)))
val remove_comp = result.grouped(171).map{arr => arr.update(2, 32);arr}.flatMap{arr => arr.update(3, 32); arr}
val convert_char = remove_comp.map( _.toChar)

返回convert_char:Iterator [Char] =非空迭代器

由于

1 个答案:

答案 0 :(得分:0)

不确定您要做什么,但这应该回答您的问题:

val ic: Iterator[Char] = ???
val spark : SparkSession = ???

val rdd: RDD[String] = spark.sparkContext.parallelize(ic.map(_.toString).toSeq)