我希望使用决策树将一组excel电子表格分组到群集系列中,使用文件大小,页数,工作表1的名称等功能。
我希望使用scikit-learn决策树分类器。我提供的每个样本都是一个python dict。以下是我的决策数据列表
的一个示例示例{'numSheets': 3, 'sheetName': 'Main', 'size': 1}
我有大约300个样本要分类,我想使用DecisionTreeClassifier来做这件事。因为数据包含我使用的字符串
vec = DictVectorizer()
train = vec.fit_transform(decisionData).toarray()
我还希望使用熵标准来分割样本,并以max_depth为3开始
clf = DecisionTreeClassifier(criterion='entropy',max_depth=3)
现在我需要致电
clf = clf.fit(train, labels)
我不知道的是标签矢量应该采用什么形式。这只是每个样本的ID。
此外,当我得到结果时,如何在树上提取已提供的每个样本的叶子。我担心如何取消转换标签,以便我能够理解分类是什么。
我可以看到的所有文档都是用于监督学习,其中提供了已知目标,因此任何帮助都会很棒。