Question

我正在处理这个文件，用于自己的练习，来自http://www3.amherst.edu/~nhorton/r2/datasets/Master.csv的Master.csv文件。我想创建一个表格，显示数据集中有多少人来自每个出生国家。到目前为止，这是我尝试的代码，但我不确定我是否做了正确的事情。对R.还是新手还有什么帮助？

dat<-read.csv("http://www3.amherst.edu/~nhorton/r2/datasets/Master.csv",
    header=TRUE,sep=",")
  library(data.table)
  DT <- as.data.table(dat)
  setkey(DT, birthCountry)
  y<-DT[, lapply(.SD, sum, na.rm=TRUE), .(birthCountry)]

Answer 1

DT = fread("http://www3.amherst.edu/~nhorton/r2/datasets/Master.csv")

DT[,.N,by=birthCountry]
                birthCountry     N
 1:                      USA 15421
 2:                Venezuela   256
 3:                     D.R.   516
 4:                   Mexico   111
 5:                   Panama    51
 ... snip

DT[,.N,by=birthCountry][order(-N)]
                birthCountry     N
 1:                      USA 15421
 2:                     D.R.   516
 3:                            346
 4:                Venezuela   256
 5:                     P.R.   231
 ...snip

Answer 2

如果write()文件的每一行代表一个唯一的个体，您可以使用基础R中的.csv函数。

table

创建一个表格，显示变量中的总计

2 个答案: