应用错误收集

Spark

时间：2015-12-04 14:43:12

标签： hadoop apache-spark yarn

我想知道mapreduce。*参数是否适用于Spark。

据我所知，在Spark中，地图输出没有缓冲区，对于reduce任务，整个过程也不同。像 mapreduce.task.io.sort.mb，mapreduce.reduce.shuffle.input.buffer.percent或mapreduce.reduce.input.buffer.percent 这样的参数控制着这些缓冲区。我正在优化在hadoop / yarn集群中运行的spark任务/作业的参数。

可以肯定地说这些mapreduce参数并不重要，我只关心spark。*参数，因为map，shuffle和reduce部分是不同的？

1 个答案:

答案 0 :(得分：0)

这是安全的，因为Spark并没有使用MapReduce作为处理引擎，但它直接与YARN交互以提交操作。因此，当您使用Spark时，没有安排MapReduce作业，但您有一个Spark应用程序和Spark作业。

将参数传递给mapper或reducer？
输入输出参数错误Hadoop
将参数传递给MRjob中的reducer
将参数传递给MapReduce程序
什么＆＃34; RDD可以存储在内存中＃34;在Spark中意味着什么
什么时候在Apache Spark中发生改组？
如何减少Apache Spark中的RDD工作
如何确定Spark中的底层MapReduce作业？
在Spark中，在没有过滤RDD两次的情况下处理RDD中的2个子组的有效方法是什么？
什么是Mapreduce等同于Spark中的top（）函数？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？