MATLAB中的特征选择

时间:2010-12-11 21:32:33

标签: matlab classification

我有一个文本分类数据集,可以在MATLAB中使用。每个文档都是此数据集中的向量,此向量的维度非常高。在这些情况下,peopl通常会在向量上进行一些特征选择,例如您实际找到WEKA工具包的那些。在MATLAB中有类似的东西吗?如果没有,你可以建议和算法让我这样做吗? 感谢

3 个答案:

答案 0 :(得分:12)

MATLAB(及其工具箱)包含许多处理特征选择的函数:

您还可以找到演示真实数据集使用情况的示例:

此外,还有第三方工具箱:

否则你总是可以直接从MATLAB调用你喜爱的WEKA函数,因为它包含一个JVM ......

答案 1 :(得分:1)

功能选择取决于您要对文本数据执行的特定任务。

最简单和最粗糙的方法之一是使用主成分分析(PCA)来减少数据的维度。这种缩小的尺寸数据可以直接用作分类的特征。

请参阅此处使用PCA的教程:

http://matlabdatamining.blogspot.com/2010/02/principal-components-analysis.html

以下是Matlab PCA命令帮助的链接:

http://www.mathworks.com/help/toolbox/stats/princomp.html

使用获得的特征,众所周知的支持向量机(SVM)可用于分类。

http://www.mathworks.com/help/toolbox/bioinfo/ref/svmclassify.html http://www.autonlab.org/tutorials/svm.html

答案 2 :(得分:1)

您可以考虑使用Weiss和Kulikowski的独立特征技术来快速消除明显无变形的变量:

http://matlabdatamining.blogspot.com/2006/12/feature-selection-phase-1-eliminate.html