因此,我正在进行回归分析,在该回归中,我的假设表明因变量会影响自变量对因变量的影响(如果有任何意义)。本质上,随着因变量的增加,我期望自变量的beta会降低。 我想用一个交互术语来解决这个问题。
y = b0 + b1 * x1 + b2 * x2 + b3 * x2 * y。
这是否会引起任何问题。这在统计上可行吗?我找不到任何相关信息,但是我不确定我是否应该这样做,因为现在我的b2从显着正值变为显着负值,这似乎很奇怪。 b3是正数btw。
仅作一些额外的说明。我的数据集包括移动应用程序下载数(DV),平均评分(IV)和评分数(IV)。现在的假设是,不太受欢迎的应用程序需要更多信息,因为受欢迎程度是对消费者质量的指示。这就是为什么我想在人气和评分变量之间进行交互。在我看来,最好的衡量程度似乎是下载的次数。
我在r中执行的用于回归的代码如下:
an_5 <- lm(new_Install ~ Rating + Reviews + Reviews:new_Install + Rating:new_Install, data=Data_1)
summary(an_5)
预期结果将全部为4,但最后两个为负,而前两个为正,但情况恰恰相反,这似乎很奇怪。我将很乐意提供更多信息。
答案 0 :(得分:0)
这不是统计上可行的方法。基本上,您只是将自变量用作对 实际因变量有效地泄漏了信息,而这些信息永远都不应该成为预测变量的一部分。
从您的陈述“本质上说,随着因变量的增加,我期望自变量的beta会减小”
我的结论是,您希望变量x2
对因变量的边际影响较小,因为它是因变量
变得更大。您可以通过适当地变换自变量来实现概念上相似的东西。例如,假设x2具有正系数,则对数变换+ log_reviews
(其中log_reviews = log(reviews))将模仿变量,其边际正效应减小。