编辑:我检查了标记为重复的链接,并找到了一些有用的指南。
现在的问题是,当我通过bind_rows
传递多个链接时,它没有提取所需的链接。就我而言,它仅适用于单个链接,但不适用于向量中的多个链接。
所需的输出链接是在抓取链接中包含以下文本的链接
https://resource.basware.com
此工作
: url <- c("https://www.basware.com/en-us/blog/october-2018/what-are-zombie-and-ghost-assets")
bind_rows(lapply(url, function(x) {
data.frame(url = x, toc_entry=toc <- read_html(url[1]) %>%
html_nodes("a") %>%
html_attr("href"))
})) -> toc_entries
这不起作用:
url <- c("https://www.basware.com/en-us/blog/november-2018/its-not-magic-its-a-perfect-fit-how-basware-ensures-your-p2p-deployment-leaves-nothing-behind",
"https://www.basware.com/en-us/blog/november-2018/best-of-2018-blogs-digital-change-in-procurement",
"https://www.basware.com/en-us/blog/november-2018/7-ways-machine-learning-enhances-purchase-to-pay",
"https://www.basware.com/en-us/blog/october-2018/what-are-zombie-and-ghost-assets")
bind_rows(lapply(url, function(x) {
data.frame(url = x, toc_entry=toc <- read_html(url[1]) %>%
html_nodes("a") %>%
html_attr("href"))
})) -> toc_entries
这不会引发任何错误,但只是没有给我包含"https://resource.basware.com"
的链接。