无法确定如何处理此练习#R抓取#extracting网络数据

时间:2017-02-22 15:19:55

标签: r dataframe screen-scraping

因此,有时候我需要从网上获取一些数据,将其组织成一个数据框,并浪费大量时间手动完成。我一直在试图弄清楚如何优化这个过程,我尝试了一些R刮削方法,但无法做到正确,我认为可以有一个更简单的方法来做到这一点,任何人都可以帮助我带着这个?

虚构的练习:

以下是按大洲列出的国家/地区的网页:https://symfony.com/doc/current/components/expression_language/extending.html#registering-functions

每个国家/地区名称也是指向另一个网页的链接(特定于每个国家/地区,例如https://simple.wikipedia.org/wiki/List_of_countries_by_continents)。

我希望最终得到一个数据框,其中包含观察数量(行)=列出的国家数量和4个变量(colums)ID =国家/地区名称,Continent =它所属的大陆,语言=官方语言(来自国家的特定网页)和人口=最近的人口数(来自国家的特定网页)。

为了能够到达最终数据框,我应该在R中遵循哪些步骤?

1 个答案:

答案 0 :(得分:0)

This will probably get you most of the way。你想要玩不同的节点,并在下载你需要的东西之后做一些字符串操作(清理)。