PySpark-将Python列表列表转换为字符串列表的RDD-RDD(List(String))

时间:2019-04-11 15:22:36

标签: apache-spark pyspark

我正在尝试格式化数据以馈入SparkML的Word2Vec模型。目前,我有一个Python列表列表,其中的元素表示单词,例如

MY_TEXT = [['a','b','c'],['d','e','f']]

我需要将其放入字符串列表的RDD中以进行馈入。我已经尝试过

data = sc.parallelize([MY_TEXT])

,但它返回can not serialize object larger than 2G。这很奇怪,因为我的内存列表只有0.2G。您能建议如何优化吗?

0 个答案:

没有答案