应用错误收集

大型集群上的火花数据局部性

时间：2015-07-23 09:07:18

标签： apache-spark executor

当在Spark SparkContext中分配spark执行器时，当我在此之后加载数据时（例如使用sc.textFile（）），spark如何确保数据局部性？我的意思是，在具有5000个服务器的大型集群中，执行器的位置在所有工作人员的子集上是随机的，并且火花甚至不知道在分配执行器时我的数据是什么和在哪里。这时，数据位置只能靠运气？或者是否有任何其他方法可以重新分配执行者或者......？

1 个答案:

答案 0 :(得分：0)

经过几天的思考，我意识到火花的强度是处理迭代计算的能力，它应该只是第一次从硬盘读取。在那之后，一切都可以通过执行者来实现。记忆。执行者和＃39;起初的位置不会影响太多。

什么是＆＃34; Locality Level＆＃34;在Spark集群上的含义
spark + hadoop数据位置
Spark Streaming中的数据位置
大型集群上的火花数据局部性
Kafka-＆gt; Spark-＆gt; Cassandra强制数据局部性
确保hbase上的数据位置
什么是HDFS数据位置？
mesos上的spark是否支持数据局部性？
YARN如何知道群集模式下Apache spark中的数据位置
Kuberenetes数据局部性上的Spark和HDFS

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？