应用错误收集

我正在努力寻找分类/预测问题的最佳选择。让我解释一下这个任务 - 我有一个关于不同研究论文摘要的关键词数据库，我也有一份具有指定影响因子的期刊列表。我想基于关键字为文章分类建立一个模型，结果是给定关键字可能的影响因子（仅作为没有任何进一步日记描述的数字）。我删除了唯一关键字标签，因为它们没有太大的统计意义，所以我只有在我的抽象列表中重复2次以上的关键字（总共6000个关键字）。我考虑虚拟编码 - 对于每篇文章，我将创建一个二进制特征向量6000个属性的长度 - 每个属性指的是摘要中关键字的存在，并通过SVM对整个集合进行分类。我很确定这个解决方案不是很优雅，可能也不正确，你对更好的交易有什么建议吗？

稀疏数据的分类

1 个答案: