使用“ rvest”(JavaScript动态网页)收集大量名称

时间:2018-12-15 08:13:37

标签: r web-scraping rvest

我一直在尝试使用“ rvest”从网站上抓取拼写名称和拼写信息,但只能从我通过SelectorGadget或以下工具选择的任何内容中获得“ {xml_nodeset(0)} ”我从“检查页面”右键单击选项中提供的css路径。我正在使用 R版本3.4.4(2018-03-15),并且尝试了以下各项的各种组合:

library(rvest)

url <- read_html("https://roll20.net/compendium/dnd5e/Spells%20List#content")

#All the spell names:
spells <- html_nodes(url,"#pagecontent a") #"#pagecontent a" is the result from selecting a name with SelectorGadget

#Details about a single spell, not able to select with SelectorGadget:
spell_descr <- html_nodes(url,css="#pagecontent > div.list-content > div:nth-child(1) > div.card > div > div.body > div.single-list > ul > li:nth-child(6)")

我是新手,但熟悉网络抓取html,并且在其他站点上也很成功,但是由于某种原因,该站点无法隔离节点,几乎就像内容完全丢失一样。我已经检查了R中的url对象,它似乎唯一从网站返回到R的东西就是网页顶部的搜索框。

我的问题是:

  1. 这个网站还能被刮掉吗?
  2. 如果是,我在做什么错了?
  3. 什么是解决此问题的好方法?

示例或解决方案链接将为您提供极大的帮助!

0 个答案:

没有答案