在R中刮除帮助内容

时间:2018-10-09 07:04:58

标签: r screen-scraping

是否可以刮擦帮助内容并在控制台内打印?

例如我想找到有关barplot的帮助,找到一个句子,然后将其打印到控制台。

我在网上找不到有关它的任何信息,因此,我正在寻求您的帮助。

我知道这是一个普遍的问题。如果我可以改善它,请随时通知我。

1 个答案:

答案 0 :(得分:1)

我可以举个例子。您可以使用rdocumentation查找所需的Get-MailboxPermission shared-user页面,然后使用?help来抓取其内容。

例如,假设我们要刮擦page并得到短语“ 使用垂直或水平条形图创建条形图”。

rvest

使用library(tidyverse) library(rvest) url <- "https://www.rdocumentation.org/packages/graphics/versions/3.5.1/topics/barplot" webpage <- read_html(url) webpage %>% html_nodes("div.container") %>% # <div class="container"> html_node("section") %>% # <section> "[["(2) %>% html_nodes("p") %>% "["(2) %>% html_text() %>% str_trim() %>% unlist() # gives: [1] "Creates a bar plot with vertical or horizontal bars." 函数很重要,您需要对html_nodes有所了解。

如果您在浏览器中检查页面(右键单击/检查),则将访问其html代码。然后,您可以查看html来查找需要抓取的内容。

在我的示例中,标签为tagsdiv class="container"和第二个section

这里是guide to rvest