火花的随机森林未使用全部32个核心

时间:2018-12-26 07:34:00

标签: apache-spark pyspark apache-spark-mllib random-forest

我想在81GB(Parquet文件格式)的数据集上训练随机森林。它使用spark保存。它由两列组成,即journalid和features。 journalid是int类型,特征是稀疏向量类型。 “功能”列的长度为262144,整个数据帧中有这样的2696512行。我正在使用以下代码来训练随机森林。

  @using(Html.BeginForm("AddRegion", "Index", FormMethod.Post))
  {
         <div class="form-group">
             <label class="control-label col-md-2">City Name</label>
             <div class="col-md-5">
                <input type="text" name="CityName" value="" />
             </div>
         </div>
         <div class="form-group">
            <label class="control-label col-md-2">Region Name</label>
            <div class="col-md-5">
                <input type="text" name="regionName" value="" />
            </div>
          </div>
          <div class="form-group">
             <label class="control-label col-md-2">Region Code</label>
             <div class="col-md-5">
                <input type="text" name="regionCode" value="" />
             </div>
          </div>
          <div class="form-group">
             <div class="col-md-offset-2 col-md-10">
                <input type="submit" value="Save" class="btn btn-default" />
             </div>
          </div>
  }

在将随机森林覆盖训练数据时,此实现未使用机器的全部32个核心。请帮助我要去哪里。使用spark-submit将以上代码作为python脚本运行,如下图所示

Running above code as python script using spark-submit  as shown in below pic

0 个答案:

没有答案