如何使用sci-kit决策树进行无监督分类

时间:2015-03-17 12:45:38

标签: python machine-learning scikit-learn

我希望使用决策树将一组excel电子表格分组到群集系列中,使用文件大小,页数,工作表1的名称等功能。

我希望使用scikit-learn决策树分类器。我提供的每个样本都是一个python dict。以下是我的决策数据列表

的一个示例示例
{'numSheets': 3, 'sheetName': 'Main', 'size': 1}

我有大约300个样本要分类,我想使用DecisionTreeClassifier来做这件事。因为数据包含我使用的字符串

vec = DictVectorizer()
train = vec.fit_transform(decisionData).toarray()

我还希望使用熵标准来分割样本,并以max_depth为3开始

clf = DecisionTreeClassifier(criterion='entropy',max_depth=3)

现在我需要致电

clf = clf.fit(train, labels)

我不知道的是标签矢量应该采用什么形式。这只是每个样本的ID。

此外,当我得到结果时,如何在树上提取已提供的每个样本的叶子。我担心如何取消转换标签,以便我能够理解分类是什么。

我可以看到的所有文档都是用于监督学习,其中提供了已知目标,因此任何帮助都会很棒。

0 个答案:

没有答案