如何从R的帮助页面获取文本数据?

时间:2018-07-13 17:23:22

标签: r text extraction

在全球范围内,我对从R文档中获取所有文本数据以将其放入数据框中并应用文本挖掘技术感兴趣。

  1. 软件包级别:假设我对软件包感兴趣,例如“ utils”,并且我想获取矢量中的所有文本数据。 这有效:

package_d <- packageDescription("utils") package_d$Description

但不是这样: package_d$Details

  1. 功能级别:相同的问题,但功能相同。我尝试了这个但没有成功:

    function_d <- ?utils::adist function_d$Description

  2. SUB-LEVELS:我想提取特定程序包的所有详细信息,参数说明和功能值...

非常感谢您的帮助!

1 个答案:

答案 0 :(得分:1)

我找不到内置的函数,但是查看完成大部分工作的函数的源代码,这是一个可以从帮助页面提取文本的函数。

help_text <- function(...) {
  file <- help(...)
  path <- dirname(file)
  dirpath <- dirname(path)
  pkgname <- basename(dirpath)
  RdDB <- file.path(path, pkgname)
  rd <- tools:::fetchRdDB(RdDB, basename(file))
  capture.output(tools::Rd2txt(rd, out="", options=list(underline_titles=FALSE)))
}

您可以将其与软件包帮助页面和功能帮助页面一起使用。

h1 <- help_text(utils)
h2 <- help_text(adist)

您将从帮助页面获得一系列行。您可以使用

打印它们
cat(h1, sep="\n")