使用数字+文本数据在MATLAB中训练SVM分类器

时间:2014-11-10 19:18:43

标签: matlab machine-learning classification svm

我想在MATLAB中训练SVM分类器以进行威胁检测。训练数据位于Excel文件中,包含数字和文本字段/列。当我将这些数据导出到MATLAB时,它可以是表格或单元格格式。如何以矩阵格式转换它?

P.S:使用xlsread函数不会导入文本数据。

2 个答案:

答案 0 :(得分:0)

数据中有4种属性。数值,离散,名义和序数。 Here你可以阅读更多关于它们的信息。首先对数据集中的每个要素进行统计分析,以了解基本统计数据,例如均值,中位数,最大值,最小值,变量类型,以及它是否与名义或序数不同的单词和所有单词一样。那么你就可以很好地了解你正在处理什么。然后根据变量类型你可以决定我们使用哪个矢量化。如果它是一个数值变量,你可以将它分成不同的类和特征缩放。如果它是一个序数变量,你可以给出逻辑顺序。如果它是名义变量,您可以给出相同的数字名称。在这里,您只需检查每个功能对最终预测的影响程度

我的建议是,使用Weka GUI来可视化数据。然后,您可以逐列

预处理数据

答案 1 :(得分:0)

您需要使用dummy variables或其他技术将文本字段转换为数字,或者如果它们实际上是id,则完全删除它们(例如医疗数据的患者姓名,记录编号,受访者uuid表示调查等。)

这在RPython+Pandas实际上会更容易,但在Matlab中,您需要自己执行编码,从单元格阵列向矩阵工作。或者你可以尝试这个toolbox