apache spark是否具有地理意识?

时间:2016-08-19 12:19:37

标签: apache-spark spark-dataframe

我正在尝试为不同站点的apache spark集群选择拓扑。火花有它自己的意识能力吗?

例如,假设在俄勒冈州和槟城有一个工人群。

现在提交一个从俄勒冈州加载数据的应用程序,然后将其保存回俄勒冈州。俄勒冈州工人是否会受到青睐(如果他们是免费的)? 没有找到有关此主题的文档。

1 个答案:

答案 0 :(得分:3)

如此处所述https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html

  

Spark依赖于数据局部性,即数据放置或与数据的接近度   source,使Spark作业对数据所在的位置敏感。   因此,在Hadoop YARN群集上运行Spark非常重要   如果数据来自HDFS。   数据系统本身可以是地理感知的,例如cassandra:Does Spark use data locality? http://www.slideshare.net/RussellSpitzer/spark-cassandralocality