我得到了一个包含12个预测变量和80000个样本的数据集。 我想知道在R中可视化这些数据的好方法是什么? 我已经尝试过pair()和cor()来查看相关性,但这些远远不够。
避免我的问题过于宽泛。以下是有关数据的一些信息。 预测变量用于预测y,即0或1.所以这是一个分类问题。 我不能把数据放在这里,因为它是类的材料。 我正在寻求的只是关于如何开始分析和探索数据的一些建议。这是我第一次建立模型,所以我正在寻求有经验的人的建议。
我想知道的只是“如果您获得这样的数据集,并且被要求使用12个预测变量来预测数据并使用12个预测变量构建模型,您会怎么做?” 我有足够的信息来介绍如何构建不同的分类器,并且只想知道我应该首先使用数据做什么。
(缩放数据是必要的,我会在训练之前这样做。)
如果这仍然被认为过于宽泛,那么请告诉我,我可以在其他地方删除或寻求帮助。这已经是我可以获得的具体而不是在这里放置真实数据。我知道这不像“我怎么能解决这段代码中的错误”这样的问题。只是寻找熟悉R并且具有分析数据经验的人的一些建议。
提前致谢。