想象一下,您有类型的数据/列,例如国家/地区, product_type ,状态。其中 status 是目标/叶节点。
然后你有像
这样的数据1:德国 | XBox | 没有销售
2:英国 | PS4 | 出售的
现在我们将根据这些数据构建决策树,其中root是Country,然后Product和Status是leaf。
最后我的问题是,如果树问你国家,你说“比利时”,或者某些未定义的东西,那么树将这个答案标记为未定义并询问产品并回答“PS4”,树将告诉你状态销售额为50%,无销售额为50%。或者,如果你要求像德国那样的未定义的数据序列,那么该怎么办?
是否有一些特殊的决策树或其他结构/算法可以解决这个问题?
简单名称就足够了,我会谷歌。
- 我将使用30-40种类型的数据/列和大约4m的日志数据或1m的当前数据(行)。也许决策树会为此目的而疯狂,不确定......