我希望从以下数据集中找到旅行持续时间和年龄的相关性。我正在应用函数cor(age,df$tripduration)
。但是,它给了我输出NA。能告诉我如何处理相关性吗?我找到了"年龄"通过以下语法:
age <- (2017-as.numeric(df$birth.year))
和tripduration(seconds)
为df$tripduration
。
以下是数据。性别中的数字1表示男性,2表示女性。
tripduration birth year gender
439 1980 1
186 1984 1
442 1969 1
170 1986 1
189 1990 1
494 1984 1
152 1972 1
537 1994 1
509 1994 1
157 1985 2
1080 1976 2
239 1976 2
344 1992 2
答案 0 :(得分:1)
我认为你试图通过数据框减去一个数字,所以它不起作用。这对我有用:
birth <- df$birth.year
year <- 2017
age <- year - birth
cor(df$tripduration, age)
>[1] 0.08366848
# To check coefficient
cor(dat$tripduration, dat$birth.year)
>[1] -0.08366848
顺便说一句,请使用易于复制的数据格式化问题,人们可以将其复制并粘贴到R中。这实际上可以帮助您找到答案。
根据OP的评论,这是一个新的建议。尝试在执行相关性测试之前删除带NA的行。
df <- df[complete.cases(df), ]
age <- (2017-as.numeric(df$birth.year))
cor(age, df$tripduration)
>[1] 0.1726607