我正在尝试格式化数据以馈入SparkML的Word2Vec模型。目前,我有一个Python列表列表,其中的元素表示单词,例如
MY_TEXT = [['a','b','c'],['d','e','f']]
。
我需要将其放入字符串列表的RDD中以进行馈入。我已经尝试过
data = sc.parallelize([MY_TEXT])
,但它返回can not serialize object larger than 2G
。这很奇怪,因为我的内存列表只有0.2G。您能建议如何优化吗?