应用错误收集

合并rdd字符串行而不减少

时间：2015-12-14 10:26:20

标签： scala apache-spark

当我使用spark中的rdd从文本文件中检索数据时，看起来检索的行是相互分离的。

我想要的是rdd将它们组合在一起并将它们视为我已经并行化了一个字符串。

例如：来自rddcontent：

sc.TextFile("sample.txt") // content: List("abc", \n "def")

要：

sc.parallelize("abcdef") // content: "abcdef"

应该这样做，因为整个数据太大而无法在内存中使用reduce但仍需要整体处理（当然并行但没有行分隔）

0 个答案:

没有答案