应用错误收集

原始数据：

文章内容和标题。 10000篇文章

功能:(我从数据中提取它们）

标题的字数

文章的字数

Facebook赞的数量

出版时间：周末与否

首先让我说我对ML很新。

我正在尝试使用我拥有的数据来构建带有SVM的模型。该模型将预测文章是否可能受欢迎。如果FB喜欢的数量大于2000，我认为一篇文章很受欢迎。

我使用训练数据创建了5D地图（4个要素为4维，二进制流行度信息为1）。每篇文章及其功能都在5D空间中有一个点。

我正在尝试将此5D地图与SVM一起使用，以便创建最佳边距。

然后我将使用此边距来预测测试数据的受欢迎程度。

在实施方面，我非常困难。

我做错了吗？我应该如何使用SVM来解决这个问题？

感谢任何帮助。谢谢！

是什么让您认为您的功能足以预测某些内容是否受欢迎？关于你丢弃的所有信息（实际文件的内容），你遗失的信息（谁是出版物的来源，他们的网络是什么样的）问题从你的数据中不明显（流行的）与谁？不同群体的人可能喜欢/不喜欢不同的事物。

你需要

了解有关机器学习的更多信息。
了解功能工程，查看人们之前使用基于文本的数据所做的一些工作（情绪分析，主题建模，垃圾邮件过滤）。
学习使用您的数据构建和测试假设。虽然在这种情况下，很明显你可能会犯很多错误 - 但这主要是因为这是新手的工作。这些问题通常总是与问题和数据有关，因此通常无助于提供通用信息并征求建议。一旦你学到更多ML，你需要考虑你的模型的含义 - 以及它们的表现意味着什么。从那里你可以建立一个关于你的表现的假设，并尝试测试它。根据结果，您可以更改有关模型或数据的内容并重复。