我使用libsvm库进行简历的文档分类。我有多个简历,我需要对它们进行分类。在这种情况下,我是否需要多标签分类或多类分类?我应该考虑以上哪个选项,还请建议一种方法吗?
答案 0 :(得分:0)
您的要求并不简单,为了开发此类系统,您需要提出几个步骤,例如:
您需要不同类型文件的数据集(各种类型的简历)
然后你需要确定可以用什么类型的功能来分隔它们(你如何区分它们,基于什么(例如,恢复长度,单词数量,简历标题的内容等) ))
然后,您需要准备一组特征向量以训练SVM。 (如果你只需要对相关和不相关的简历进行分类,这将是两个类。如果有两个以上的类,这将是多类的,而LibSVM支持多类)
进行培训时,您需要执行缩放,交叉验证以提高准确度(read here )
您需要完成上述步骤才能成功预测。