scikit.learn cross_val_score中的错误

时间:2014-10-22 09:14:35

标签: python scikit-learn cross-validation

请参阅以下地址的笔记本

LogisticRegression

这部分代码,

scores = cross_val_score(LogisticRegression(), X, y, scoring='accuracy', cv=10)
print scores
print scores.mean()

在窗口7 64位机器中生成以下错误

---------------------------------------------------------------------------
 IndexError                                Traceback (most recent call last)
 <ipython-input-37-4a10affe67c7> in <module>()
 1 # evaluate the model using 10-fold cross-validation
 ----> 2 scores = cross_val_score(LogisticRegression(), X, y, scoring='accuracy', cv=10)
  3 print scores
  4 print scores.mean()

 C:\Python27\lib\site-packages\sklearn\cross_validation.pyc in    cross_val_score(estimator, X, y, scoring, cv, n_jobs, verbose, fit_params, score_func, pre_dispatch)
  1140                         allow_nans=True, allow_nd=True)
  1141 
  -> 1142     cv = _check_cv(cv, X, y, classifier=is_classifier(estimator))
  1143     scorer = check_scoring(estimator, score_func=score_func, scoring=scoring)
  1144     # We clone the estimator to make sure that all the folds are

  C:\Python27\lib\site-packages\sklearn\cross_validation.pyc in _check_cv(cv, X, y, classifier, warn_mask)
  1366         if classifier:
  1367             if type_of_target(y) in ['binary', 'multiclass']:
  -> 1368                 cv = StratifiedKFold(y, cv, indices=needs_indices)
  1369             else:
  1370                 cv = KFold(_num_samples(y), cv, indices=needs_indices)

  C:\Python27\lib\site-packages\sklearn\cross_validation.pyc in __init__(self, y, n_folds, indices, shuffle, random_state)
  428         for test_fold_idx, per_label_splits in enumerate(zip(*per_label_cvs)):
  429             for label, (_, test_split) in zip(unique_labels, per_label_splits):
--> 430                 label_test_folds = test_folds[y == label]
 431                 # the test split can be too big because we used
 432                 # KFold(max(c, self.n_folds), self.n_folds) instead of

IndexError: too many indices for array 

我正在使用scikit.learn 0.15.2,建议here可能是Windows 7,64位机器的特定问题。

==============更新==============

我发现以下代码实际上有效

 from sklearn.cross_validation import KFold
 cv = KFold(X.shape[0], 10, shuffle=True, random_state=33)
 scores = cross_val_score(LogisticRegression(), X, y, scoring='accuracy', cv=cv)
 print scores

============== update 2 =============

似乎由于某些软件包更新,我无法再在我的机器上重现这样的错误。如果您在Windows 7 64位计算机上遇到同样的问题,请告诉我。

3 个答案:

答案 0 :(得分:2)

我遇到了同样的错误,当我发现这个问题时,我正在寻找答案。

我使用了相同的sklearn.cross_validation.cross_val_score(不同的算法除外)和相同的机器窗口7,64位。

我从上面尝试了你的解决方案并且#34;工作了#34;但它给了我以下警告:

  

C:\ Users \ E245713 \ AppData \ Local \ Continuum \ Anaconda3 \ lib \ site-packages \ sklearn \ cross_validation.py:1531:DataConversionWarning:当期望1d数组时,传递了列向量y。请将y的形状更改为(n_samples,),例如使用ravel()。     estimator.fit(X_train,y_train,** fit_params)

在阅读警告后,我发现问题与“&#39; y”的形状有关。 (我的标签栏)。要从警告中尝试的关键字是&#34; ravel()&#34;。所以,我尝试了以下内容:

y_arr = pd.DataFrame.as_matrix(label)
print(y_arr)
print(y_arr.shape())

给了我

  [[1]
   [0]
   [1]
   .., 
   [0]
   [0]
   [1]]

  (87939, 1)

当我添加&#39; ravel()&#39;:

y_arr = pd.DataFrame.as_matrix(label).ravel()
print(y_arr)
print(y_arr.shape())
它给了我:

[1 0 1 ..., 0 0 1]

(87939,)

&#39; y_arr&#39;的维度必须是(87939,)而不是(87939,1)的形式。 之后我的原始cross_val_score在没有添加Kfold代码的情况下工作。

希望这有帮助。

答案 1 :(得分:1)

我知道答案来晚了。
但是这个答案可能会帮助其他人为同样的错误而挣扎。 我对python 3.6有同样的问题 从3.6更改为3.5时,我可以使用该功能。
下面是我运行的示例:

SendNotification

首先使用3.5版本创建conda env。

accuracies = cross_val_score(estimator = classifier, X = X_train, y = y_train, cv = 10, n_jobs = -1)

希望这应该有助于前进

答案 2 :(得分:0)

导入此模块,它应该可以工作:

from sklearn.model_selection import cross_val_score