我有按国家,半球(北部,南部,赤道)和季节(夏季,秋季,冬季,春季)的死亡数据。当然,任何一个国家总是属于同一个半球。目前,数据是宽格式的(每行对应不同的情况)。
我正在尝试重塑泊松回归的数据集,因此我需要每个国家有四行(每个季节一个)和一个频率变量,表示该国家该季节发生的案例数量。我还需要保持半球变量。
这是我试过的:
#three countries (A, B, C)
country = c(rep("A", 5), rep("B", 20), rep("C", 4))
#A is Northern, B and C are Equatorial
hemisphere = c(rep("Northern", 5), rep("Equatorial", 20), rep("Equatorial", 4))
#season of each occurrence
season = sample(c("Fall", "Winter", "Summer", "Spring"), size=29, replace=T)
fake = data.frame(country, hemisphere, season)
#almost works
fake2 = as.data.frame(table(fake$country, fake$season, fake$hemisphere))
结果的问题是我们获得Freq = 0的行,这些行对应于国家A,赤道等条件,因为这是一个不可能的条件。换句话说,不应存在与不存在的国家 - 半球组合相对应的行。我该如何解决这个问题?
提前致谢。