在R中找到相关性的问题

时间:2014-08-08 22:11:22

标签: r correlation

我想在correlation中的两个单独数据集之间找到R。我的第一个数据集的结构是(在print(matr1)中使用时R):

        year  month  income  
 [1,]  "2000" "01"  "30000"
 [2,]  "2000" "02"  "12364"
 [3,]  "2000" "03"  "37485"
 [4,]  "2000" "04"  "2000"
 [5,]  "2000" "05"  "7573"

我的第二个数据集的结构是(在print(matr2)中使用R时):

     month_year     value     
 [1,] "Jan 2000" "84737476"
 [2,] "Feb 2000" "39450334"
 [3,] "Mar 2000" "48384943"
 [4,] "Apr 2000" "12345678"
 [5,] "May 2000" "49595340"

现在我想找出这两个数据集之间的相关性,但我遇到的问题是两个数据集中月份和年份的格式不同。当我使用R命令cor(matr1[,"income"],matr2[,"value"])时,我得到了错误

Error in cor(matr1[,"income"],matr2[,"value"]) : 
  'x' must be numeric

所以,我的问题是:

  1. 如何删除错误?
  2. 当月份和年份的格式不同时,如何找到相关性?
  3. 任何指导对我都有帮助,因为我是新手。

1 个答案:

答案 0 :(得分:2)

使用日期是一种痛苦,IMO。但是,如果您已经知道您的行符合(即income的第i行中的matr1与/同一行中的value与同一行中的matr2相同cor(as.numeric(matr1[,"income"]), as.numeric(matr2[,"value"])) ),您可以通过以下方式获得相关性:

{{1}}