使用BIG DATA进行SVM建模

时间:2012-10-30 07:03:56

标签: r svm bigdata

对于在R中使用SVM进行建模,我使用了kernlab包(ksvm方法)和Windows Xp操作系统以及2 GB RAM。但是由于201497有更多的数据行,我无法为处理数据建模提供更多内存(遇到问题:无法分配大于2.7 GB的矢量大小)。

因此,我使用亚马逊微型和大型实例进行SCM建模。但是,它与本地机器具有相同的问题(不能分配大于2.7 GB的矢量大小)。

任何人都可以建议我使用BIG DATA建模解决这个问题,或者是否有问题。

1 个答案:

答案 0 :(得分:4)

如果没有可重复的示例,很难说数据集是否太大,或者脚本的某些部分是否不是最理想的。一些一般指示:

  • 查看High Performance Computing Taskview,其中列出了与使用BigData相关的主要R包。
  • 您可以使用整个数据集来训练模型。您可以尝试使用一个子集(比如10%)并使其适合您的模型。重复此过程几次将可以深入了解模型拟合是否对您使用的数据子集敏感。
  • 一些分析技术,例如PCA分析可以通过迭代地处理数据来完成,即以块的形式。这使得可以在非常大的数据集上进行分析(>> 100 gb)。我不确定kernlab是否可以实现这一点。
  • 检查您使用的R版本是否为64位。
  • This earlier question可能会引起人们的兴趣。