Question

因此，我正在进行回归分析，在该回归中，我的假设表明因变量会影响自变量对因变量的影响（如果有任何意义）。本质上，随着因变量的增加，我期望自变量的beta会降低。我想用一个交互术语来解决这个问题。

y = b0 + b1 * x1 + b2 * x2 + b3 * x2 * y。

这是否会引起任何问题。这在统计上可行吗？我找不到任何相关信息，但是我不确定我是否应该这样做，因为现在我的b2从显着正值变为显着负值，这似乎很奇怪。 b3是正数btw。

仅作一些额外的说明。我的数据集包括移动应用程序下载数（DV），平均评分（IV）和评分数（IV）。现在的假设是，不太受欢迎的应用程序需要更多信息，因为受欢迎程度是对消费者质量的指示。这就是为什么我想在人气和评分变量之间进行交互。在我看来，最好的衡量程度似乎是下载的次数。

我在r中执行的用于回归的代码如下：

an_5 <- lm(new_Install ~ Rating + Reviews + Reviews:new_Install + Rating:new_Install, data=Data_1)
summary(an_5)

预期结果将全部为4，但最后两个为负，而前两个为正，但情况恰恰相反，这似乎很奇怪。我将很乐意提供更多信息。

Answer 1

这不是统计上可行的方法。基本上，您只是将自变量用作对实际因变量有效地泄漏了信息，而这些信息永远都不应该成为预测变量的一部分。

从您的陈述“本质上说，随着因变量的增加，我期望自变量的beta会减小” 我的结论是，您希望变量x2对因变量的边际影响较小，因为它是因变量变得更大。您可以通过适当地变换自变量来实现概念上相似的东西。例如，假设x2具有正系数，则对数变换+ log_reviews（其中log_reviews = log（reviews））将模仿变量，其边际正效应减小。

是否可以在交互作用项中使用因变量？这会引起任何问题吗？

1 个答案: