应用错误收集

时间：2018-01-20 21:02:12

标签： r variables memory-management logistic-regression

我有超过1000万条目的大数据。

我想要做任何我想要的分析，所以我决定把重点放在某个国家的一部分人口中。所以现在我大约有150,000个参赛作品。现在我有26个变量，并希望对数据运行逻辑回归模型，但R表示

错误：无法分配大小为130.3 Gb的矢量

我假设因为我有太多变数。我尝试了如何为您的模型选择变量，但像step这样的函数要求您拥有完整的模型，因此我不确定如何继续。

我是否应该消除变量，我认为这些变量不会对我的响应变量产生影响，或者我的数据集是否仍然太大？

答案 0 :(得分：1)

如果您提供更多信息，那就太好了。尽管如此......

除非您非常熟悉数据，否则您应该做的第一步是预先形成探索性数据分析。 More info here。

我认为你有一个有监督的学习问题。在这种情况下，您可以根据不同的变量绘制标记的结果。见下图。

你在图像上看到的是一个变量 - 家庭大小的分布，根据泰坦尼克号灾难中的生存结果。

在迭代此步骤时，您将更好地了解哪些变量包含预测的更多相关信息。

不久之后，您还会意识到您可能需要根据原始数据构建自己的变量/列。这是一个名为特征工程的过程。

之后，我认为您会遇到使用更先进的统计方法进行特征选择的问题。在这种情况下，caret包将非常方便。

有关机器学习的更详细介绍，我建议您查看www.kaggle.com

希望这会有所帮助。