我在独立模式下使用spark 1.5.2运行脚本(使用8个内核),在脚本结束时,我尝试使用.td_text {
background: #CCC;
}
.td_link {
width:150px;
position:relative;
}
.td_link a {
background: green;
display:block;
width:100%;
height:100%;
position:absolute;
left:0;top:0;
}
包将非常大的数据帧序列化到磁盘。抛出异常的代码片段是:
<table>
<tr>
<td class="td_link"><a href="#"></a></td>
<td class="td_text">text<br>text<br>text<br></td>
</tr>
</table>
其中spark-csv
是火花数据帧。在执行时,我得到以下stracktrace:
numfileparts = 16
data = data.repartition(numfileparts)
# Save the files as a bunch of csv files
datadir = "~/tempdatadir.csv/"
try:
(data
.write
.format('com.databricks.spark.csv')
.save(datadir,
mode="overwrite",
codec="org.apache.hadoop.io.compress.GzipCodec"))
except:
sys.exit("Could not save files.")
这导致了一堆这些:
data
......依此类推(我故意遗漏了一些最后一行。)
我完全理解(大致)发生了什么,但我不确定该怎么办 - 这是一个记忆问题吗? 我寻求有关该做什么的建议 - 是否有一些设置我可以更改,添加等?