Question

我有一个名为＆＃39;电子邮件的文件夹＆＃39;两个子文件夹以与其所拥有的文件分类相对应的标签命名（垃圾邮件或非垃圾邮件，所有都是.txt文件）。两个子文件夹中有3000个文件。使用load_files：

data = load_files('emails', shuffle='False')
print len(data)
print len(data.target)

这打印＆＃39; 5＆＃39;然后＆＃39; 3000＆＃39;。如果找到3000个分类标签，数据长度如何才能为5？

Answer 1

您的数据存储在data.data中，目标位于data.target。请改为print(len(data.data))。

load_files()只返回一个sklearn.datasets.base.Bunch，这是一个简单的数据包装器。因此，data采用以下格式：

{
'DESCR': None,
 'data': [],
 'filenames': array(),
 'target': array(),
 'target_names': []
}

这就是len(data)返回5的原因。

希望这有帮助！