Question

我想在81GB（Parquet文件格式）的数据集上训练随机森林。它使用spark保存。它由两列组成，即journalid和features。 journalid是int类型，特征是稀疏向量类型。 “功能”列的长度为262144，整个数据帧中有这样的2696512行。我正在使用以下代码来训练随机森林。

  @using(Html.BeginForm("AddRegion", "Index", FormMethod.Post))
  {
         <div class="form-group">
             <label class="control-label col-md-2">City Name</label>
             <div class="col-md-5">
                <input type="text" name="CityName" value="" />
             </div>
         </div>
         <div class="form-group">
            <label class="control-label col-md-2">Region Name</label>
            <div class="col-md-5">
                <input type="text" name="regionName" value="" />
            </div>
          </div>
          <div class="form-group">
             <label class="control-label col-md-2">Region Code</label>
             <div class="col-md-5">
                <input type="text" name="regionCode" value="" />
             </div>
          </div>
          <div class="form-group">
             <div class="col-md-offset-2 col-md-10">
                <input type="submit" value="Save" class="btn btn-default" />
             </div>
          </div>
  }

在将随机森林覆盖训练数据时，此实现未使用机器的全部32个核心。请帮助我要去哪里。使用spark-submit将以上代码作为python脚本运行，如下图所示

火花的随机森林未使用全部32个核心

0 个答案: