有没有办法在spark的内存字符串中读取scala / java?我不喜欢这样的事实:对于简单的试验,我需要从磁盘读取文本文件。
正在寻找像
这样的东西// "invented" textString anything like this (textString) in spark?
sc.textString("hi this is my string, lets word count it")
虽然我可以写一个文件然后阅读但我不明白为什么没有选项可以在内存字符串中播放,是不是有这样的?
答案 0 :(得分:2)
Spark中没有textString
这样的东西,但考虑到我从你的问题中理解的是你可以做的:
将字符串转换为Seq后并行化字符串以创建RDD,如下所示:
val str = "this is a string"
val rdd = sc.parallelize(Seq(str))
答案 1 :(得分:1)
您可以使用parallelize
功能:
val stringRdd = sc.parallelize(Seq("hi this is my string, lets word count it"))