我正在使用一个数据集,该数据集主要由来自SFDC的名义值组成(例如EE名称,标题,角色,潜在客户来源,帐户名称等),并且我正在尝试将这些要素与布尔类相关联销售线索已转换为销售联系人。
我想通过一些基本的特征选择算法运行这些数据,但大多数只需要数值。我可以使用布尔映射方案将每个唯一的分类映射到一个新的字段(特征),但是然后我将生成大量的新特性,我不确定它是否会给出有意义的输出。不可否认,最好的解决方案可能是通过决策树运行数据,但是想知道社区中是否有其他策略用于处理已成功用于现实世界的大部分名义数据的数据集。应用
我正在使用python和scipy / numpy / pandas / scikit-learn进行分析。
答案 0 :(得分:1)
我首先尝试使用sklearn.feature_extraction.DictVectorizer,然后尝试使用可以处理稀疏数据表示的Chi2单变量特征选择。例如,scikit-learn中有稀疏文本数据的chi2特征选择应用:http://scikit-learn.org/dev/auto_examples/document_classification_20newsgroups.html
不幸的是,scikit-learn的决策树和集合在稀疏表示中不起作用。