我正在尝试研究一个包含约260个二进制变量和一个公制变量的数据集。这些是类别变量的虚拟变量,我想对度量变量进行回归。
如何可视化它们?
我首先尝试了plot(),但是无法在整个数据集上使用它,即使我仅使用视图也无法解释它们。
我尝试了{
"script": {
"inline": "ctx._source.Name = params.newName",
"params": {
"newName": "Where's My Crown"
},
"lang": "painless"
},
"query": {"match": {"movie_id": 69}}
}
,但输出如下:
“ plot.new()中的错误:图形边距太大”
我也尝试了pairs()
软件包中的sjp.corr()
,但是它太小了,无法解释。
我对处理这样的数据没有真正的经验,您会推荐我什么?您如何分析和解释数据(甚至是非图形数据)?您是否建议不要尝试以图形方式解释它?如果我尝试以非图形方式进行调查并使用Hmisc软件包的命令rcorr(),也会遇到问题。然后我只有一张3 x 260的桌子,它忽略了258行?我该怎么办?
真的很抱歉,但我无法向您显示数据:(但是,如果您仍然可以给我一些建议,我将很高兴
答案 0 :(得分:0)
数据您没有提供给我们,但是从您的情节中我可以得到一些要点
因此,鉴于上述信息,我为自己生成了一个随机数据集,并根据我的数据回答了您的问题。
dt<-data.frame(binary=sample(c("0","1"),100,replace = T ),
price=rnbinom(100, 100,0.5 ) )
在我的数据集中,binary
是一个只能包含1或0的字符串。价格是一个数值。
我要做的第一件事是研究price
功能,了解其直方图,这有助于我获得其分布。
library(ggplot2)
ggplot(dt,aes( x=price, fill=binary ))+
geom_histogram( position="identity", alpha=.5)+
geom_density()
结果是:
下一步,我想比较1s与0s的频率
library(ggplot2)
ggplot(dt,aes(binary,fill=binary))+
geom_bar()
它向我显示了它们的出现频率:
我怀疑回归是否是预测的好选择。我会说,最好的选择是使用rpart
library(rpart)
model<-rpart(binary~price,dt, method="class" )
但是,不要忘记将test
和train
数据分开。