apache-spark - 如何将大型Blob分发到Spark群集中的每个主机 - Thinbug

如何将大型Blob分发到Spark群集中的每个主机

时间：2018-09-25 19:06:01

标签： apache-spark pyspark apache-spark-sql

我知道广播变量的上限为2G，因此不建议广播大量数据。

最好与集群中的每台机器共享一个巨大的机器学习记录。向量大小约为10GB，机器容量为120GB。

我当时正在考虑将数据放在S3上，但是如果将其加载到spark中，它将自动拆分为HDFS上的块。我不要。

0 个答案:

没有答案