应用错误收集

使用功能作为输入与使用它在SVM上构建多台计算机

时间：2012-04-16 21:14:57

标签： machine-learning svm

我是一名本科生，在毕业论文中，我使用SVM来预测公交车到达公交车站的路程。在做了大量研究并阅读了一些论文之后，我仍然对如何建模我的系统抱有一个关键的疑问。

我们已经决定使用哪些功能，我们正在收集执行回归所需的数据，但令我们困惑的是使用某些功能作为SVM的输入或构建分离的机器的含义或后果基于其中一些功能。

例如，在这个paper中，作者建立了4个SVM用于预测公交车到达时间：一个用于晴天的高峰时间，一个是雨天的高峰时间，一个是在晴天的高峰时间，另一个是匆忙的时间和下雨天。

但是在同一个子项目的following paper上，他们决定使用单个SVM，将天气状况和高峰/高峰时间作为输入，而不是像以前那样在4个SVM中打破它。

我觉得这是一种更多关于经验的事情所以我想听听你们是否有人知道何时选择这些方法之一。

提前致谢。

3 个答案:

答案 0 :(得分：0)

没有其他办法：你必须自己找出答案。这就是你必须写这篇论文的原因。没有人从完美的解决方案开始。每个人都会犯错误。你的问题并不容易，当你从未做过类似的事情时，你无法说出什么会有用。尝试在文献中找到的所有内容，比较结果，发展自己的想法，......

答案 1 :(得分：0)

最重要的问题：数据是什么样的？第二个问题：你期望用什么模型来捕获它？

因此，如果您出于某种原因想要使用SVM，请记住它们的基本机制是线性的，并且只有在数据被合适的内核转换时才能捕获非线性现象。

对于手头的特定问题，这意味着：

您是否有理由（情节性质中的情节，见解）相信您的问题是线性的（可分离的）？只需使用一个线性svm。
您是否有理由将问题包含在几个线性子问题中？在每个子问题上使用线性svm。
您的数据是否看似非线性分组？试试像rbf kernel这样的svm。

当然，您可以插入并尝试，但检查上述内容可能会增加对问题的理解。

答案 2 :(得分：0)

在您的特定问题中，我会选择单个SVM。

由于我没有那么广泛的经验，我会考虑在几个SVM中解决问题，原因如下： 1）类太不同了，或者你的问题中有类和子类。例如。就我而言：显微镜图像中有几种类型的抗体，它们都可能是阳性或阴性。因此，不是定义A_Pos，A_Neg，B_Pos，B_Neg，......而是首先决定图像是正还是负，并确定第二个SVM中的类型。

2）特征提取过于昂贵。如果您有一组课程，可以通过发烧功能进行识别。您可以先提取一小部分，而不是提取单个机器的所有特征，如果需要（结果不是很高的概率），可以提取更多的特征。

3）确定实例是否完全属于问题。创建一个包含一个类和所有训练集实例的模型。如果要分类的实例是异常值，请停止。否则使用包含所有类的第二个SVM进行分类。

关键词是“级联SVM”