稀疏数据的分类

时间:2016-05-28 10:19:04

标签: python r classification data-mining text-classification

我正在努力寻找分类/预测问题的最佳选择。让我解释一下这个任务 - 我有一个关于不同研究论文摘要的关键词数据库,我也有一份具有指定影响因子的期刊列表。我想基于关键字为文章分类建立一个模型,结果是给定关键字可能的影响因子(仅作为没有任何进一步日记描述的数字)。我删除了唯一关键字标签,因为它们没有太大的统计意义,所以我只有在我的抽象列表中重复2次以上的关键字(总共6000个关键字)。我考虑虚拟编码 - 对于每篇文章,我将创建一个二进制特征向量6000个属性的长度 - 每个属性指的是摘要中关键字的存在,并通过SVM对整个集合进行分类。我很确定这个解决方案不是很优雅,可能也不正确,你对更好的交易有什么建议吗?

1 个答案:

答案 0 :(得分:0)

将此编码策略用于文本和支持向量机没有任何问题。

为了您的实际目标:

  • 支持向量回归(SVR)可能更合适
  • 要小心期刊影响因子。这非常粗糙。你需要考虑时间方面;许多非常好的作品都没有在期刊上发表