我刚开始使用R并尝试学习使用csv文件的方法
示例数据集
Org_Name Question# Response(scales from 1 through 5)
Org1 1 1
Org1 2 3
Org1 3 5
Org2 1 4
Org2 2 2
Org2 3 3
Org3 1 4
Org3 2 1
Org3 3 5
我试图弄清楚如何使用R
进行一些数据分析所以我的问题就是这个
R甚至是一个很好的工具吗? 。但我不确定Excel是否是更好的选择(我对Excel更熟悉)
如何使用R中的表?例如,如果我想检查问题#2中哪个组织名称得分高(4-5)而问题#1中得分低(1-2)。这种情况多久发生一次?有没有办法做到这一点?
是否有任何好的教程/资源用于学习R.我知道R是数据分析的绝佳选择,我想了解更多相关信息。
答案 0 :(得分:2)
1)R是处理CSV数据的绝佳工具。几分钟后,您就可以下载RStudio并启动并运行。
以下是一些示例代码,向您展示如何开始:
sample <- data.frame(Org_Name = c(rep("Org1", 3), rep("Org2", 3), rep("Org3", 3)),
Question = c(1,2,3,1,2,3,1,2,3),
Response = c(1,3,5,4,2,3,4,1,5))
2)这定义了一个名为sample
的数据框,并将数据分配给它。要查找问题2中得分为4或更高的所有组织,您可以使用:
> sample$Org_Name[sample$Response >= 4 & sample$Question == 2]
factor(0)
这会返回factor(0)
,这意味着没有Orgs匹配。但是,如果您想知道哪个Orgs对问题2的响应较低,您可以尝试:
> sample$Org_Name[sample$Response <= 2 & sample$Question == 2]
[1] Org2 Org3
3)Google是寻找R资源的好地方。官方的R文档也很好。
答案 1 :(得分:0)
如果您是初学者,下载一些软件包将对您有很大帮助。以下是使用dplyr
软件包对您的问题的一些示例代码:
1)R是用于任何形式的数据处理或分析的出色工具,并且读取csv文件非常容易:
dat <- read.csv ("path")
2)一旦将csv文件读入一个对象(如上面的“ dat”),则dplyr
程序包将提供一堆函数来执行几乎所有的操作,例如,您的问题“检查哪个组织名称”在问题2中得分最高(4-5),在问题1中得分较低(1-2)。”
这将为您提供一个满足您指定条件的Org_Names:
dat %>%
filter (Question2 >= 4 & Question1 <= 2) %>% select (Org_Name)
我猜你想多久计数一次?
dat %>%
filter (Question2 >= 4 & Question1 <= 2) %>% select (Org_Name) %>% nrow()