bind_rows为多个链接抛出丢失的信息

时间:2018-11-12 11:30:04

标签: r

编辑:我检查了标记为重复的链接,并找到了一些有用的指南。

现在的问题是,当我通过bind_rows传递多个链接时,它没有提取所需的链接。就我而言,它仅适用于单个链接,但不适用于向量中的多个链接。

所需的输出链接是在抓取链接中包含以下文本的链接

https://resource.basware.com

此工作

   url <- c("https://www.basware.com/en-us/blog/october-2018/what-are-zombie-and-ghost-assets")

    bind_rows(lapply(url, function(x) {

      data.frame(url = x, toc_entry=toc <- read_html(url[1]) %>%
                   html_nodes("a")     %>%
                   html_attr("href")) 

    })) -> toc_entries

这不起作用:

url <- c("https://www.basware.com/en-us/blog/november-2018/its-not-magic-its-a-perfect-fit-how-basware-ensures-your-p2p-deployment-leaves-nothing-behind",
         "https://www.basware.com/en-us/blog/november-2018/best-of-2018-blogs-digital-change-in-procurement",
        "https://www.basware.com/en-us/blog/november-2018/7-ways-machine-learning-enhances-purchase-to-pay",
        "https://www.basware.com/en-us/blog/october-2018/what-are-zombie-and-ghost-assets")


bind_rows(lapply(url, function(x) {

  data.frame(url = x, toc_entry=toc <- read_html(url[1]) %>%
               html_nodes("a")     %>%
               html_attr("href")) 

})) -> toc_entries

这不会引发任何错误,但只是没有给我包含"https://resource.basware.com"的链接。

0 个答案:

没有答案