我正在尝试使用meta name="generator"
包提取rvest
标记来检测多个网站的内容管理系统。代码看起来像这样:
library(rvest)
url <- "https://www.example.com"
meta_generator <- read_html(url) %>%
html_nodes("meta[name=generator]") %>%
html_attr("content") %>%
paste(collapse = "")
复杂性是Drupal将生成器中的'g'大写:meta name="Generator"
而Wordpress呈现为meta name="generator"
,因此我的代码在这种情况下将检测Wordpress而不是Drupal标记。
ignore.case = TRUE
是否容易等同于rvest
?
感谢。
答案 0 :(得分:1)
您只需使用逗号:
meta_generator <- read_html(url) %>%
html_nodes("meta[name=generator],meta[name=Generator]") %>%
html_attr("content") %>%
paste(collapse = "")