我有一个名为'电子邮件的文件夹'两个子文件夹以与其所拥有的文件分类相对应的标签命名(垃圾邮件或非垃圾邮件,所有都是.txt文件)。两个子文件夹中有3000个文件。使用load_files:
data = load_files('emails', shuffle='False')
print len(data)
print len(data.target)
这打印' 5'然后' 3000'。如果找到3000个分类标签,数据长度如何才能为5?
答案 0 :(得分:3)
您的数据存储在data.data
中,目标位于data.target
。
请改为print(len(data.data))
。
load_files()
只返回一个sklearn.datasets.base.Bunch
,这是一个简单的数据包装器。
因此,data
采用以下格式:
{
'DESCR': None,
'data': [],
'filenames': array(),
'target': array(),
'target_names': []
}
这就是len(data)
返回5的原因。
希望这有帮助!