Question

我在独立模式下使用spark 1.5.2运行脚本（使用8个内核），在脚本结束时，我尝试使用.td_text { background: #CCC; } .td_link { width:150px; position:relative; } .td_link a { background: green; display:block; width:100%; height:100%; position:absolute; left:0;top:0; }包将非常大的数据帧序列化到磁盘。抛出异常的代码片段是：

<table>
  <tr>
    <td class="td_link"><a href="#"></a></td>
    <td class="td_text">text<br>text<br>text<br></td>
  </tr>
</table>

其中spark-csv是火花数据帧。在执行时，我得到以下stracktrace：

numfileparts = 16
data = data.repartition(numfileparts)

# Save the files as a bunch of csv files
datadir = "~/tempdatadir.csv/"
try:
    (data
     .write
     .format('com.databricks.spark.csv')
     .save(datadir,
           mode="overwrite",
           codec="org.apache.hadoop.io.compress.GzipCodec"))
except:
    sys.exit("Could not save files.")

这导致了一堆这些：

data

......依此类推（我故意遗漏了一些最后一行。）

我完全理解（大致）发生了什么，但我不确定该怎么办 - 这是一个记忆问题吗？我寻求有关该做什么的建议 - 是否有一些设置我可以更改，添加等？

使用spark-csv包保存数据框会引发异常和崩溃（pyspark）

0 个答案: