标签: apache-spark pyspark apache-spark-sql
我知道广播变量的上限为2G,因此不建议广播大量数据。
最好与集群中的每台机器共享一个巨大的机器学习记录。 向量大小约为10GB,机器容量为120GB。
我当时正在考虑将数据放在S3上,但是如果将其加载到spark中,它将自动拆分为HDFS上的块。我不要。