无法在Scikit-Learn中获取20个NewsGroups数据集

时间:2016-06-30 01:40:42

标签: python dataset scikit-learn

我尝试使用以下代码获取此数据集。

from sklearn.datasets import fetch_20newsgroups
twenty_train = fetch_20newsgroups(subset='train')

但是,此后发生了错误。然后该程序被杀死。

No handlers could be found for logger "sklearn.datasets.twenty_newsgroups"
Killed

我尝试像以后一样手动加载这些文件

twenty_train = load_files('/root/scikit_learn_data/20news_home/20news-bydate-train')

和这个

twenty_train = load_files('/root/scikit_learn_data/20news_home/20news-bydate-train',encoding='latin1')

只有前一个有效。

1 个答案:

答案 0 :(得分:3)

这看起来像scikit-learn试图报告一些错误而你没有配置,你的输出在哪里。当我尝试你的代码时,我甚至遇到了完全相同的问题。我通过设置记录器来修复它:

WARNING:sklearn.datasets.twenty_newsgroups:Download was incomplete, downloading again.
WARNING:sklearn.datasets.twenty_newsgroups:Downloading dataset from http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz (14 MB)

现在尝试加载数据集会给我以下警告:

twenty_train

在您的系统上完成下载(14 MB)后,您将在range(2, n)变量中加载数据集。

希望这有帮助!