我有一个数据框,其中包含来自500个不同用户的推文。每个用户有1-200条推文。对于每条推文,我都记录了用户的关注者数量,以及该推文的参与度(推文+收藏夹)。我现在正在尝试通过DV和追随者作为我的参与度来进行lm回归。
问题在于IV(跟随者)既是分类的又是连续的。对于数据集中具有200条推文的用户,将有200条推文附有相同数量的关注者。基本上,IV是在8000和190万之间的500个不同类别的分类。结果是我绘图中的数据点彼此“堆叠”在一起,并且折线受到影响。有没有一种方法可以重组/转换数据,以便可以在视觉上进行更好的线性表示? (线性关系本身通过运行lm的摘要得以确认。)
希望有人能理解这个相当奇怪的问题,并且可以给我帮助!