Question

我正在尝试使用meta name="generator"包提取rvest标记来检测多个网站的内容管理系统。代码看起来像这样：

library(rvest)
url <- "https://www.example.com"

meta_generator <- read_html(url) %>% 
  html_nodes("meta[name=generator]") %>%
  html_attr("content") %>% 
  paste(collapse = "")

复杂性是Drupal将生成器中的'g'大写：meta name="Generator"

而Wordpress呈现为meta name="generator"，因此我的代码在这种情况下将检测Wordpress而不是Drupal标记。

ignore.case = TRUE是否容易等同于rvest？

感谢。

Answer 1

您只需使用逗号：

meta_generator <- read_html(url) %>% 
  html_nodes("meta[name=generator],meta[name=Generator]") %>%
  html_attr("content") %>% 
  paste(collapse = "")

html_node区分大小写与网站元数据标签

1 个答案: