具有字符串属性的WEKA决策树

时间:2012-07-23 04:45:50

标签: java machine-learning weka decision-tree

我有一个20的属性集,其中很少是字符串,例如美国的州代码,订阅计划的名称等等。我们如何在WEKA中处理字符串属性以进行决策树构建?

我读过有关stringtowordvector转换器的信息,但每个属性的字符串本身只是一个字。

2 个答案:

答案 0 :(得分:1)

你可能想到了这一点 - 你必须声明这样的“字符串属性”(实际的字符串属性是WEKA中的其他东西)作为名义属性,即你必须声明它们可以在卷曲的ARFF标题中拥有的所有值括号中。

答案 1 :(得分:0)

只需在ARFF文件中声明此架构后面的属性:

@attribute <att_name> string

要小心,因为Strings内部存储在字符串表中并由表示 他们在那张桌子上的地址。因此,两个包含相同字符的字符串将会 具有相同的价值。

来源(书):数据挖掘:实用机器学习工具和技术第3版