研究大量二进制变量和度量变量之间的相关性

时间:2018-09-07 08:35:22

标签: r binary correlation

我正在尝试研究一个包含约260个二进制变量和一个公制变量的数据集。这些是类别变量的虚拟变量,我想对度量变量进行回归。

如何可视化它们?

我首先尝试了plot(),但是无法在整个数据集上使用它,即使我仅使用视图也无法解释它们。

enter image description here

我尝试了{ "script": { "inline": "ctx._source.Name = params.newName", "params": { "newName": "Where's My Crown" }, "lang": "painless" }, "query": {"match": {"movie_id": 69}} } ,但输出如下:

  

“ plot.new()中的错误:图形边距太大”

我也尝试了pairs()软件包中的sjp.corr(),但是它太小了,无法解释。

我对处理这样的数据没有真正的经验,您会推荐我什么?您如何分析和解释数据(甚至是非图形数据)?您是否建议不要尝试以图形方式解释它?如果我尝试以非图形方式进行调查并使用Hmisc软件包的命令rcorr(),也会遇到问题。然后我只有一张3 x 260的桌子,它忽略了258行?我该怎么办?

真的很抱歉,但我无法向您显示数据:(但是,如果您仍然可以给我一些建议,我将很高兴

1 个答案:

答案 0 :(得分:0)

数据您没有提供给我们,但是从您的情节中我可以得到一些要点

  1. 您有2个特征,其中之一是Binary(1,0),而另一个是0到600之间的整数。
  2. 另一个功能在0到150之间时,两个0和1的频率都更大。

因此,鉴于上述信息,我为自己生成了一个随机数据集,并根据我的数据回答了您的问题。

dt<-data.frame(binary=sample(c("0","1"),100,replace = T ),
               price=rnbinom(100, 100,0.5 )  )

在我的数据集中,binary是一个只能包含1或0的字符串。价格是一个数值。

我要做的第一件事是研究price功能,了解其直方图,这有助于我获得其分布。

library(ggplot2)
ggplot(dt,aes( x=price, fill=binary ))+
  geom_histogram( position="identity", alpha=.5)+
  geom_density()

结果是:

enter image description here

下一步,我想比较1s与0s的频率

library(ggplot2)
ggplot(dt,aes(binary,fill=binary))+
  geom_bar()

它向我显示了它们的出现频率:

enter image description here


我怀疑回归是否是预测的好选择。我会说,最好的选择是使用rpart

进行分类
library(rpart)
model<-rpart(binary~price,dt, method="class"  )

但是,不要忘记将testtrain数据分开。