Question

为了庆祝r代码中的第100,000个问题，我想在CRAN上创建所有包作者名称的列表。

最初，我认为我可以使用available.packages()执行此操作，但遗憾的是，这并不包含作者列。

pdb <- available.packages()
colnames(pdb)

 [1] "Package"               "Version"               "Priority"             
 [4] "Depends"               "Imports"               "LinkingTo"            
 [7] "Suggests"              "Enhances"              "License"              
[10] "License_is_FOSS"       "License_restricts_use" "OS_type"              
[13] "Archs"                 "MD5sum"                "NeedsCompilation"     
[16] "File"                  "Repository"

此信息可在每个包的DESCRIPTION文件中找到。所以我可以想到两种非常优雅的蛮力方式：

下载每个6,878软件包，并使用DESCRIPTION

base::read.dcf()

刮掉CRAN上的每个包页面。例如，https://cran.r-project.org/web/packages/MASS/index.html告诉我Brian Ripley是MASS的作者。

我不想下载所有CRAN来回答这个问题。而且我也不想抓取HTML，因为DESCRIPTION文件中的信息是person对象的整齐格式列表（请参阅?person）。

如何使用CRAN上的信息轻松构建软件包作者列表？

Answer 1

为什么不将Gabor的API用于CRAN包？

e.g。 http://crandb.r-pkg.org/MASS

library("httr")
content(GET("http://crandb.r-pkg.org/MASS"))$Author
[1] "Brian Ripley [aut, cre, cph],\nBill Venables [ctb],\nDouglas M. Bates [ctb],\nKurt Hornik [trl] (partial port ca 1998),\nAlbrecht Gebhardt [trl] (partial port ca 1998),\nDavid Firth [ctb]"

Answer 2

取自reverse_dependencies_with_maintainers，R developer site上有一点可用（我现在看不到）：

  description <- sprintf("%s/web/packages/packages.rds",
                          getOption("repos")["CRAN"])
  con <- if(substring(description, 1L, 7L) == "file://") {
       file(description, "rb")
  } else {
      url(description, "rb")
  }
  db <- as.data.frame(readRDS(gzcon(con)),stringsAsFactors=FALSE)
  close(con)
  rownames(db) <- NULL

  head(db$Author)
  head(db$"Authors@R")

如果存在Authors@R，则可以使用dget()

将其更好地解析为更好的内容

getAuthor <- function(x){
  if(is.na(x)) return(NA)
  a <- textConnection(x)
  on.exit(close(a))
  dget(a)
}
authors <- lapply(db$"Authors@R", getAuthor)
head(authors)

[[1]]
[1] NA

[[2]]
[1] "Gaurav Sood <gsood07@gmail.com> [aut, cre]"

[[3]]
[1] "Csillery Katalin <kati.csillery@gmail.com> [aut]"
[2] "Lemaire Louisiane [aut]"                         
[3] "Francois Olivier [aut]"                          
[4] "Blum Michael <michael.blum@imag.fr> [aut, cre]"  

[[4]]
[1] NA

[[5]]
[1] "Csillery Katalin <kati.csillery@gmail.com> [aut]"
[2] "Lemaire Louisiane [aut]"                         
[3] "Francois Olivier [aut]"                          
[4] "Blum Michael <michael.blum@imag.fr> [aut, cre]"  

[[6]]
[1] NA

如何从CRAN中提取所有包作者的名称

2 个答案: