乘以不均匀的数据集

时间:2018-11-12 15:49:53

标签: r dataframe linear-regression

我正在尝试将距离的对数与不同国家的关税率进行交互,但是我的数据框的维度略有不同。第一个数据帧是

'data.frame':   265 obs. of  32 variables:

第二个数据帧是

'data.frame':   263 obs. of  32 variables:

我一直找不到它们的区别,但是我的教授说,在STATA中,它们也是应在R中找到的解决方法。您将使用哪种解决方法?

1 个答案:

答案 0 :(得分:0)

准备供回归或其他地方使用的数据的标准方法是使用合并将所有数据放到同一数据框中。您可以删除其中一个而不是另一个中的行,或者包括它们,并在较小的数据集中将NA放在行中。在回归分析中,对NA的观察将被丢弃,因此选择哪个无关紧要。

假设First是具有265个观测值的数据框,而Second是具有263个观测值的数据框。在两个数据框中,都有一个名为“ Year”的列,您将使用该列进行匹配。确保此列中没有缺失值。

FinalData <- merge(First,Second,by="Year")

默认情况下,这将删除两个数据集中缺少的行。然后使用FinalData作为lm()的输入来进行回归,不会有任何错误。