在pyspark

时间:2017-07-20 13:42:10

标签: python apache-spark pyspark

我正在尝试使用pyspark处理一个非常大的语料库,但是我的输入文件没有结构化"每行一个文档",所以我不能直接使用{{1}加载文件}}。

相反,我正在使用生成器函数加载文件,sc.textFile文件只要遇到停止序列。我可以使用yield包装此生成器,但是这会导致pyspark一次性将所有数据加载到RAM中,这是我无法承受的。

有什么方法可以解决这个问题吗?或者我肯定需要转换我的文本文件吗?

这基本上是我想要运行的:

sc.parallelize

1 个答案:

答案 0 :(得分:2)

虽然有点旧,但您可以尝试使用答案here

基本上:

operationsMonitoring