使用spark-csv包保存数据框会引发异常和崩溃(pyspark)

时间:2016-04-20 07:41:51

标签: apache-spark pyspark spark-csv

我在独立模式下使用spark 1.5.2运行脚本(使用8个内核),在脚本结束时,我尝试使用.td_text { background: #CCC; } .td_link { width:150px; position:relative; } .td_link a { background: green; display:block; width:100%; height:100%; position:absolute; left:0;top:0; } 包将非常大的数据帧序列化到磁盘。抛出异常的代码片段是:

<table>
  <tr>
    <td class="td_link"><a href="#"></a></td>
    <td class="td_text">text<br>text<br>text<br></td>
  </tr>
</table>

其中spark-csv是火花数据帧。在执行时,我得到以下stracktrace:

numfileparts = 16
data = data.repartition(numfileparts)

# Save the files as a bunch of csv files
datadir = "~/tempdatadir.csv/"
try:
    (data
     .write
     .format('com.databricks.spark.csv')
     .save(datadir,
           mode="overwrite",
           codec="org.apache.hadoop.io.compress.GzipCodec"))
except:
    sys.exit("Could not save files.")

这导致了一堆这些:

data

......依此类推(我故意遗漏了一些最后一行。)

我完全理解(大致)发生了什么,但我不确定该怎么办 - 这是一个记忆问题吗? 我寻求有关该做什么的建议 - 是否有一些设置我可以更改,添加等?

0 个答案:

没有答案