尝试单独研究R中的网页报废...
如果没有HTML知识,这感觉非常困难。
crime_wiki <- read_html("https://en.wikipedia.org/wiki/List_of_United_States_cities_by_crime_rate")
crime_wiki %>%
html_nodes(".firstHeading") %>% html_text()
crime_wiki %>%
html_nodes("dl+ h2 .mw-headline") %>% html_text()
以上代码工作正常。我得到了我想要的东西。
当我试图获得城市名称(从阿尔伯克基到威奇托)时,它没有用。 我写了
crime_wiki %>%
html_nodes(".jquery-tablesorter a") %>% html_text()
我做错了什么?
最终我想做...当我点击每个城市名称时,他们的链接页面似乎具有相同的格式。因此,从每个页面获取相同的信息,例如表格中所有城市的市长名称......
答案 0 :(得分:1)
以下代码允许我获取城市名称:
library(rvest)
crime_wiki <- read_html("https://en.wikipedia.org/wiki/List_of_United_States_cities_by_crime_rate")
crime_wiki %>%
html_nodes("td a") %>%
html_text()
我不熟悉你使用&#34; .jquery-tablesorter a&#34;。我使用SelectorGadget来获取节点的名称,即&#34; td a&#34;。请注意,使用我已共享的代码,如果我只想要城市名称,我需要删除最后4个元素。