当我使用spark中的rdd从文本文件中检索数据时,看起来检索的行是相互分离的。
我想要的是rdd将它们组合在一起并将它们视为我已经并行化了一个字符串。
例如:来自rddcontent:
sc.TextFile("sample.txt") // content: List("abc", \n "def")
要:
sc.parallelize("abcdef") // content: "abcdef"
应该这样做,因为整个数据太大而无法在内存中使用reduce但仍需要整体处理(当然并行但没有行分隔)