包含字符串和数值的数据集中的要素选择?

时间:2013-04-07 21:34:29

标签: python machine-learning weka rapidminer feature-selection

嗨我有大数据集,它有字符串和数值 离。

用户名(str),手机(str),请求数(int),下载次数(int),.......

我有大约200个这样的专栏。

在功能选择期间是否有可以处理字符串和整数的方法/算法? 或者我该如何处理这个问题。

感谢

3 个答案:

答案 0 :(得分:0)

特征选择算法根据其在分类中的影响为不同特征分配权重。据我所知,在计算不同权重时,要素类型没有区别。我建议根据ASCII代码或任何其他技术将字符串功能转换为数字。然后,您可以在快速挖掘器中使用现有的特征选择算法。

答案 1 :(得分:0)

您可以在RapidMiner的“属性加权”组中使用一组运算符。例如,按相关权重或按信息增益权重。

这些将根据其与标签的相关性(在本例中为下载标志)评估赋予属性的权重。然后,可以将“生成的权重”与“按权重选择”运算符一起使用,以消除不需要的权重。这种方法本身就是考虑属性。

您还可以构建分类模型并使用前向选择运算符来添加越来越多的属性并监控性能。这种方法将考虑属性之间的关系。

答案 2 :(得分:0)

我使用了Weka Feature Selection,虽然我尝试过的属性赋值器方法无法处理字符串属性,但您可以在Preprocess > Filter > Unsupervised > Attribute > RemoveType中临时删除它们,然后执行要素选择,稍后再包含字符串再次做分类。