我正在努力寻找分类/预测问题的最佳选择。让我解释一下这个任务 - 我有一个关于不同研究论文摘要的关键词数据库,我也有一份具有指定影响因子的期刊列表。我想基于关键字为文章分类建立一个模型,结果是给定关键字可能的影响因子(仅作为没有任何进一步日记描述的数字)。我删除了唯一关键字标签,因为它们没有太大的统计意义,所以我只有在我的抽象列表中重复2次以上的关键字(总共6000个关键字)。我考虑虚拟编码 - 对于每篇文章,我将创建一个二进制特征向量6000个属性的长度 - 每个属性指的是摘要中关键字的存在,并通过SVM对整个集合进行分类。我很确定这个解决方案不是很优雅,可能也不正确,你对更好的交易有什么建议吗?
答案 0 :(得分:0)
将此编码策略用于文本和支持向量机没有任何问题。
为了您的实际目标: