如何将大型Blob分发到Spark群集中的每个主机

时间:2018-09-25 19:06:01

标签: apache-spark pyspark apache-spark-sql

我知道广播变量的上限为2G,因此不建议广播大量数据。

最好与集群中的每台机器共享一个巨大的机器学习记录。 向量大小约为10GB,机器容量为120GB。

我当时正在考虑将数据放在S3上,但是如果将其加载到spark中,它将自动拆分为HDFS上的块。我不要。

0 个答案:

没有答案