Question

尝试单独研究R中的网页报废...

如果没有HTML知识，这感觉非常困难。

crime_wiki <- read_html("https://en.wikipedia.org/wiki/List_of_United_States_cities_by_crime_rate")
crime_wiki %>% 
  html_nodes(".firstHeading") %>% html_text()

crime_wiki %>% 
  html_nodes("dl+ h2 .mw-headline") %>% html_text()

以上代码工作正常。我得到了我想要的东西。

当我试图获得城市名称（从阿尔伯克基到威奇托）时，它没有用。我写了

crime_wiki %>% 
  html_nodes(".jquery-tablesorter a") %>% html_text()

我做错了什么？

最终我想做...当我点击每个城市名称时，他们的链接页面似乎具有相同的格式。因此，从每个页面获取相同的信息，例如表格中所有城市的市长名称......

Answer 1

以下代码允许我获取城市名称：

    library(rvest)
    crime_wiki <- read_html("https://en.wikipedia.org/wiki/List_of_United_States_cities_by_crime_rate")
    crime_wiki %>% 
      html_nodes("td a") %>%
      html_text()

我不熟悉你使用＆＃34; .jquery-tablesorter a＆＃34;。我使用SelectorGadget来获取节点的名称，即＆＃34; td a＆＃34;。请注意，使用我已共享的代码，如果我只想要城市名称，我需要删除最后4个元素。

R中的Web Scrapping（从表中获取信息）

1 个答案: