我有一个20的属性集,其中很少是字符串,例如美国的州代码,订阅计划的名称等等。我们如何在WEKA中处理字符串属性以进行决策树构建?
我读过有关stringtowordvector转换器的信息,但每个属性的字符串本身只是一个字。
答案 0 :(得分:1)
你可能想到了这一点 - 你必须声明这样的“字符串属性”(实际的字符串属性是WEKA中的其他东西)作为名义属性,即你必须声明它们可以在卷曲的ARFF标题中拥有的所有值括号中。
答案 1 :(得分:0)
只需在ARFF文件中声明此架构后面的属性:
@attribute <att_name> string
要小心,因为Strings
内部存储在字符串表中并由表示
他们在那张桌子上的地址。因此,两个包含相同字符的字符串将会
具有相同的价值。
来源(书):数据挖掘:实用机器学习工具和技术第3版