应用错误收集

是否有类似于Hadoop Streaming的Apache Spark对应物？

时间：2018-04-17 15:01:04

标签： apache-spark hadoop mapreduce hadoop-streaming

我想要在C ++中实现一些高度自定义的处理逻辑。 Hadoop Streaming使我能够将C ++编码的逻辑集成到MapReduce处理管道中。我想知道我是否可以对Apache Spark做同样的事情。

1 个答案:

答案 0 :(得分：1)

最接近（但不完全等效）的解决方案是RDD.pipe方法：

将由管道元素创建的RDD返回到分叉的外部进程。通过每个分区执行一次给定的进程来计算得到的RDD。每个输入分区的所有元素都被写入进程的stdin，作为由换行符分隔的输入行。生成的分区由进程的stdout输出组成，每行stdout导致输出分区的一个元素。即使对于空分区，也会调用进程。

可以通过提供两个功能来定制打印行为。

Spark test suite提供了许多用法示例。