Question

我希望从以下数据集中找到旅行持续时间和年龄的相关性。我正在应用函数cor(age,df$tripduration)。但是，它给了我输出NA。能告诉我如何处理相关性吗？我找到了＆＃34;年龄＆＃34;通过以下语法：

age <- (2017-as.numeric(df$birth.year))

和tripduration(seconds)为df$tripduration。

以下是数据。性别中的数字1表示男性，2表示女性。

tripduration    birth year  gender
439              1980        1
186              1984        1
442              1969        1
170              1986        1
189              1990        1
494              1984        1
152              1972        1
537              1994        1
509              1994        1
157              1985        2
1080             1976        2
239              1976        2
344              1992        2

Answer 1

我认为你试图通过数据框减去一个数字，所以它不起作用。这对我有用：

birth <- df$birth.year
year <- 2017
age <- year - birth
cor(df$tripduration, age)
>[1] 0.08366848

# To check coefficient
cor(dat$tripduration, dat$birth.year)
>[1] -0.08366848

顺便说一句，请使用易于复制的数据格式化问题，人们可以将其复制并粘贴到R中。这实际上可以帮助您找到答案。

根据OP的评论，这是一个新的建议。尝试在执行相关性测试之前删除带NA的行。

df <- df[complete.cases(df), ]
age <- (2017-as.numeric(df$birth.year)) 
cor(age, df$tripduration)
>[1] 0.1726607

如何在数据集中查找关联

1 个答案: