scikit中的load_files-学习不加载目录中的所有文件

时间:2015-05-04 09:44:00

标签: python machine-learning dataset scikit-learn classification

我有一个名为'电子邮件的文件夹'两个子文件夹以与其所拥有的文件分类相对应的标签命名(垃圾邮件或非垃圾邮件,所有都是.txt文件)。两个子文件夹中有3000个文件。使用load_files:

data = load_files('emails', shuffle='False')
print len(data)
print len(data.target)

这打印' 5'然后' 3000'。如果找到3000个分类标签,数据长度如何才能为5?

1 个答案:

答案 0 :(得分:3)

您的数据存储在data.data中,目标位于data.target。 请改为print(len(data.data))

load_files()只返回一个sklearn.datasets.base.Bunch,这是一个简单的数据包装器。 因此,data采用以下格式:

{
'DESCR': None,
 'data': [],
 'filenames': array(),
 'target': array(),
 'target_names': []
}

这就是len(data)返回5的原因。

希望这有帮助!