使用R从可能填充有javascript的表中抓取数据

时间:2019-03-06 04:38:13

标签: javascript r web-scraping

您好,R狂热分子...

一段时间以来,我一直在使用R来抓取来自各种网站的数据,但是这个问题让我很困惑。

我正在尝试从下表中抓取数据: http://www.vigimeteo.com/PREV/obs/obs_seul.html?a=07005&b=

但是到目前为止我的努力失败了。

我尝试了以下

  1. 简单的wget(可从网站获取html)以及用于填充表格的一些javascript函数,但我一直无法真正浏览它并找到可以用来抓取表格的部分使用一些R的JS实用程序来获取数据。可能是我在JS方面的经验很差
  2. 我在这里Reading data from iframe尝试过该解决方案,因为看起来原始网站的表格位于iframe中,但还是没有运气
  3. getURL和readHTMLTable的组合

    thisURL = http://www.vigimeteo.com/PREV/obs/obs_seul.html?a=07005&b= theURL = getURL(thisURL,.opts = list(ssl.verifypeer = FALSE) ) tables = readHTMLTable(theURL)

这将导致一个空表

  1. 我花了大约一个小时来浏览我能找到的html和javascript代码的每个部分,但是如1中所述,却取得了有限的成功。

它可能显示为R's Selenium package could have a potential solution,但是由于不熟悉,我还没有弄清楚如何在这里使用它

我感觉我只是在这里缺少一个重要的部分……也许是由于我对JS和XML缺乏了解?

更新

我注意到,如果我右键单击table元素并使用Chrome的“检查”,它会生成HTML,其中包含表中的所有值,并且非常容易抓取……我仍然没有确保如何在R中达到这一点。任何人都可以在“检查”屏幕上找到提示,以尝试指导我的进度?

0 个答案:

没有答案