支持向量机 - 预测文章的流行度 - 我做错了什么?

时间:2016-03-22 18:51:50

标签: machine-learning svm

原始数据:

  

文章内容和标题。 10000篇文章

功能:(我从数据中提取它们)

  

标题的字数

     

文章的字数

     

Facebook赞的数量

     

出版时间:周末与否

首先让我说我对ML很新。

我正在尝试使用我拥有的数据来构建带有SVM的模型。该模型将预测文章是否可能受欢迎。如果FB喜欢的数量大于2000,我认为一篇文章很受欢迎。

我使用训练数据创建了5D地图(4个要素为4维,二进制流行度信息为1)。每篇文章及其功能都在5D空间中有一个点。

我正在尝试将此5D地图与SVM一起使用,以便创建最佳边距。

然后我将使用此边距来预测测试数据的受欢迎程度。

在实施方面,我非常困难。

我做错了吗?我应该如何使用SVM来解决这个问题?

感谢任何帮助。谢谢!

1 个答案:

答案 0 :(得分:0)

是什么让您认为您的功能足以预测某些内容是否受欢迎?关于你丢弃的所有信息(实际文件的内容),你遗失的信息(谁是出版物的来源,他们的网络是什么样的)问题从你的数据中不明显(流行的)与谁?不同群体的人可能喜欢/不喜欢不同的事物。

你需要

  1. 了解有关机器学习的更多信息。
  2. 了解功能工程,查看人们之前使用基于文本的数据所做的一些工作(情绪分析,主题建模,垃圾邮件过滤)。
  3. 学习使用您的数据构建和测试假设。虽然在这种情况下,很明显你可能会犯很多错误 - 但这主要是因为这是新手的工作。这些问题通常总是与问题和数据有关,因此通常无助于提供通用信息并征求建议。一旦你学到更多ML,你需要考虑你的模型的含义 - 以及它们的表现意味着什么。从那里你可以建立一个关于你的表现的假设,并尝试测试它。根据结果​​,您可以更改有关模型或数据的内容并重复。