我有一个数据集,我从中抽取了12个特征用于决策树共参考解析的任务。这些功能的一些示例是:
distance_feature():根据句子数,i和j之间的距离。输出:0或1
Ispronoun_feature():如果名词短语是代词,则此功能设置为true。
appositive_feature():此功能检查j
是否在i
的位置。
创建所有这些功能以从数据集中提取结果后,我不知道如何选择根节点或不使用sci-kit学习决策树算法,因为数据不是结构化的并且是分类的。我读过的一篇论文提到了熵和信息增益,但是这两个属性的所有示例均基于结构化数据集。