应用错误收集

PySpark-将Python列表列表转换为字符串列表的RDD-RDD（List（String））

时间：2019-04-11 15:22:36

标签： apache-spark pyspark

我正在尝试格式化数据以馈入SparkML的Word2Vec模型。目前，我有一个Python列表列表，其中的元素表示单词，例如

MY_TEXT = [['a','b','c'],['d','e','f']]。

我需要将其放入字符串列表的RDD中以进行馈入。我已经尝试过

data = sc.parallelize([MY_TEXT])

，但它返回can not serialize object larger than 2G。这很奇怪，因为我的内存列表只有0.2G。您能建议如何优化吗？

0 个答案:

没有答案