我想在81GB(Parquet文件格式)的数据集上训练随机森林。它使用spark保存。它由两列组成,即journalid和features。 journalid是int类型,特征是稀疏向量类型。 “功能”列的长度为262144,整个数据帧中有这样的2696512行。我正在使用以下代码来训练随机森林。
@using(Html.BeginForm("AddRegion", "Index", FormMethod.Post))
{
<div class="form-group">
<label class="control-label col-md-2">City Name</label>
<div class="col-md-5">
<input type="text" name="CityName" value="" />
</div>
</div>
<div class="form-group">
<label class="control-label col-md-2">Region Name</label>
<div class="col-md-5">
<input type="text" name="regionName" value="" />
</div>
</div>
<div class="form-group">
<label class="control-label col-md-2">Region Code</label>
<div class="col-md-5">
<input type="text" name="regionCode" value="" />
</div>
</div>
<div class="form-group">
<div class="col-md-offset-2 col-md-10">
<input type="submit" value="Save" class="btn btn-default" />
</div>
</div>
}
在将随机森林覆盖训练数据时,此实现未使用机器的全部32个核心。请帮助我要去哪里。使用spark-submit将以上代码作为python脚本运行,如下图所示