回归数据集:输入变量的相同组合的不同响应值

时间:2018-03-18 16:15:33

标签: r dataset data-cleaning

嘿亲爱的stackoverflowers,

我想对大型客户数据集执行(多个)回归分析,尝试根据第一次购买时观察到的各种自变量来预测首次购买后花费的金额。 在这个数据集中,对于输入变量值的相同组合(比如性别=男性,年龄= 30,收入= 40k,first_purchase_value = 99,90),我可以有多个具有不同y值的观察(即多个客户共享相同的值)自变量属性,但根据观察到的y值表现不同。)

这是回归分析的问题吗,即我是否必须通过以下方法压缩这些观察结果:平均?我得到负的R2值,这就是为什么我要问(我知道线性模型也可能只是错误的假设)...

感谢您帮助我。我尝试使用搜索功能,但无法找到类似的主题(可能是因为问题很愚蠢?)。

干杯!

编辑:这是我正在使用的代码:

spl <- sample.split(data$spent, SplitRatio = 0.75)
data_train <- subset(data, spl == TRUE)
data_test <- subset(data, spl == FALSE)
model_lm_spent <- lm(spent ~ ., data = data_train)
summary(model_lm_spent)
model_lm_predictions_spent <- predict(model_lm_spent, newdata = data_test) 
SSE_spent = sum((data_test$spent - model_lm_predictions_spent)^2)
SST_spent = sum((data_test$spent - mean(data$spent))^2)
1 - SSE_spent/SST_spent

0 个答案:

没有答案