Question

我正在尝试使用pyspark处理一个非常大的语料库，但是我的输入文件没有结构化＆＃34;每行一个文档＆＃34;，所以我不能直接使用{{1}加载文件}}。

相反，我正在使用生成器函数加载文件，sc.textFile文件只要遇到停止序列。我可以使用yield包装此生成器，但是这会导致pyspark一次性将所有数据加载到RAM中，这是我无法承受的。

有什么方法可以解决这个问题吗？或者我肯定需要转换我的文本文件吗？

这基本上是我想要运行的：

sc.parallelize

Answer 1

虽然有点旧，但您可以尝试使用答案here

基本上：

operationsMonitoring