如何在数据集中查找关联

时间:2017-09-25 01:31:46

标签: r

我希望从以下数据集中找到旅行持续时间和年龄的相关性。我正在应用函数cor(age,df$tripduration)。但是,它给了我输出NA。能告诉我如何处理相关性吗?我找到了"年龄"通过以下语法:

age <- (2017-as.numeric(df$birth.year)) 

tripduration(seconds)df$tripduration

以下是数据。性别中的数字1表示男性,2表示女性。

tripduration    birth year  gender
439              1980        1
186              1984        1
442              1969        1
170              1986        1
189              1990        1
494              1984        1
152              1972        1
537              1994        1
509              1994        1
157              1985        2
1080             1976        2
239              1976        2
344              1992        2

1 个答案:

答案 0 :(得分:1)

我认为你试图通过数据框减去一个数字,所以它不起作用。这对我有用:

birth <- df$birth.year
year <- 2017
age <- year - birth
cor(df$tripduration, age)
>[1] 0.08366848

# To check coefficient
cor(dat$tripduration, dat$birth.year)
>[1] -0.08366848

顺便说一句,请使用易于复制的数据格式化问题,人们可以将其复制并粘贴到R中。这实际上可以帮助您找到答案。

根据OP的评论,这是一个新的建议。尝试在执行相关性测试之前删除带NA的行。

df <- df[complete.cases(df), ]
age <- (2017-as.numeric(df$birth.year)) 
cor(age, df$tripduration)
>[1] 0.1726607