标签: apache-spark pyspark
我正在寻找一种分发巨大文件(8gb,即word2vec预训练嵌入)的方法,以供每个工作者使用。
事实上,我有一个程序可以计算每个文档的嵌入,作为其单词向量的总和。每个单词都有一个向量。
反正每个工作者都可以下载此文件吗?
与:How to load a file in each executor once?完全相同 问候