标签: python apache-spark pyspark
我正在尝试使用pyspark处理一个非常大的语料库,但是我的输入文件没有结构化"每行一个文档",所以我不能直接使用{{1}加载文件}}。
相反,我正在使用生成器函数加载文件,sc.textFile文件只要遇到停止序列。我可以使用yield包装此生成器,但是这会导致pyspark一次性将所有数据加载到RAM中,这是我无法承受的。
sc.textFile
yield
有什么方法可以解决这个问题吗?或者我肯定需要转换我的文本文件吗?
这基本上是我想要运行的:
sc.parallelize
答案 0 :(得分:2)
虽然有点旧,但您可以尝试使用答案here
基本上:
operationsMonitoring