spark sc.textString?有没有办法从字符串中读取?

时间:2015-07-13 15:54:22

标签: scala apache-spark

有没有办法在spark的内存字符串中读取scala / java?我不喜欢这样的事实:对于简单的试验,我需要从磁盘读取文本文件。

正在寻找像

这样的东西
// "invented" textString anything like this (textString) in spark?
sc.textString("hi this is my string, lets word count it") 

虽然我可以写一个文件然后阅读但我不明白为什么没有选项可以在内存字符串中播放,是不是有这样的?

2 个答案:

答案 0 :(得分:2)

Spark中没有textString这样的东西,但考虑到我从你的问题中理解的是你可以做的:

  • 从Java或Scala中想要的源代码读取字符串
  • 将字符串转换为Seq后并行化字符串以创建RDD,如下所示:

    val str = "this is a string"
    val rdd = sc.parallelize(Seq(str))
    

答案 1 :(得分:1)

您可以使用parallelize功能:

val stringRdd = sc.parallelize(Seq("hi this is my string, lets word count it"))