是否有类似于Hadoop Streaming的Apache Spark对应物?

时间:2018-04-17 15:01:04

标签: apache-spark hadoop mapreduce hadoop-streaming

我想要在C ++中实现一些高度自定义的处理逻辑。 Hadoop Streaming使我能够将C ++编码的逻辑集成到MapReduce处理管道中。我想知道我是否可以对Apache Spark做同样的事情。

1 个答案:

答案 0 :(得分:1)

最接近(但不完全等效)的解决方案是RDD.pipe方法:

  

将由管道元素创建的RDD返回到分叉的外部进程。通过每个分区执行一次给定的进程来计算得到的RDD。每个输入分区的所有元素都被写入进程的stdin,作为由换行符分隔的输入行。生成的分区由进程的stdout输出组成,每行stdout导致输出分区的一个元素。即使对于空分区,也会调用进程。

     

可以通过提供两个功能来定制打印行为。

Spark test suite提供了许多用法示例。