原始数据:
文章内容和标题。 10000篇文章
功能:(我从数据中提取它们)
标题的字数
文章的字数
Facebook赞的数量
出版时间:周末与否
首先让我说我对ML很新。
我正在尝试使用我拥有的数据来构建带有SVM的模型。该模型将预测文章是否可能受欢迎。如果FB喜欢的数量大于2000,我认为一篇文章很受欢迎。
我使用训练数据创建了5D地图(4个要素为4维,二进制流行度信息为1)。每篇文章及其功能都在5D空间中有一个点。
我正在尝试将此5D地图与SVM一起使用,以便创建最佳边距。
然后我将使用此边距来预测测试数据的受欢迎程度。
在实施方面,我非常困难。
我做错了吗?我应该如何使用SVM来解决这个问题?
感谢任何帮助。谢谢!
答案 0 :(得分:0)
是什么让您认为您的功能足以预测某些内容是否受欢迎?关于你丢弃的所有信息(实际文件的内容),你遗失的信息(谁是出版物的来源,他们的网络是什么样的)问题从你的数据中不明显(流行的)与谁?不同群体的人可能喜欢/不喜欢不同的事物。
你需要