从HTML页面抓取超链接

时间:2012-04-02 08:44:52

标签: html r

我正在尝试提取this页面右侧列出的地点的纬度和经度。我想创建一个如下表格:

Place  Latitude Longitude
Agarda 23.12604 87.19869 
Ahanda 23.13099 87.18501 
.....
.....
West-Sanabandh 23.24876 86.99941 

是否可以在R中执行此操作而不调用“Agarda:”的单个超链接,“Ahanda”......等等一次?

2 个答案:

答案 0 :(得分:3)

数据显示在不同的页面上。如果不请求每个页面,您将无法获取该数据。

如果R支持线程,那么您可以并行调用它们,而不是一次调用它们。

答案 1 :(得分:1)

可以使用RCurl来抓取某些类型的循环或sapply中的每个页面。如果你将它与一些正则表达式和/或readHTMLTable(以识别超链接)结合起来,那么它是一个相对简单的功能。

在RCurl中,可以创建一个并行执行此操作的多包,尽管考虑到所涉及的查询数量,它可能同样容易序列化并在查询之间放置一个小的系统休眠。