数据砖中的并行石灰

时间:2018-08-20 22:57:20

标签: python apache-spark parallel-processing lime

我正在尝试并行化databricks上的lime框架,但无法做到这一点。 我不知道如何,如果有人可以帮忙,我该如何将观察结果发送给不同的工人。

从头开始是来自lime框架。

下面的代码:

 import lime 
 import lime.lime_tabular   
 explainer=
 lime.lime_tabular.LimeTabularExplainer(X_train,feature_names=train_columns,
        class_names=['look_forward_Repatha'],verbose=True,
                                               mode='regression')
 --------------------------------
def calculate_in_parallel(line):
  test_nparray = np.array(line)
  exp = explainer.explain_instance(test_nparray,xgb_model.predict, 
  num_features=30)
  return exp.as_list()

test_rdd = sc.parallelize(df_pred_X_test_skew_nohighcoll.values)
test_rdd = test_rdd.map(calculate_in_parallel)
test_rdd = test_rdd.collect()

0 个答案:

没有答案