Question

我希望使用决策树将一组excel电子表格分组到群集系列中，使用文件大小，页数，工作表1的名称等功能。

我希望使用scikit-learn决策树分类器。我提供的每个样本都是一个python dict。以下是我的决策数据列表

的一个示例示例

{'numSheets': 3, 'sheetName': 'Main', 'size': 1}

我有大约300个样本要分类，我想使用DecisionTreeClassifier来做这件事。因为数据包含我使用的字符串

vec = DictVectorizer()
train = vec.fit_transform(decisionData).toarray()

我还希望使用熵标准来分割样本，并以max_depth为3开始

clf = DecisionTreeClassifier(criterion='entropy',max_depth=3)

现在我需要致电

clf = clf.fit(train, labels)

我不知道的是标签矢量应该采用什么形式。这只是每个样本的ID。

此外，当我得到结果时，如何在树上提取已提供的每个样本的叶子。我担心如何取消转换标签，以便我能够理解分类是什么。

我可以看到的所有文档都是用于监督学习，其中提供了已知目标，因此任何帮助都会很棒。