网络抓取循环通过R中的字母和数字

时间:2014-02-27 00:12:23

标签: r web-scraping

我正在尝试从网站上抓取一些数据,这些数据的地址由字母和数字组成。以下代码有效,但不是理想的解决方案。虽然我事先知道我需要遍历字母AZ,但是网址中的实际数字是不同的,这取决于它是A,B,C等......但是,没有一个字母超过100。

因此有时我有地址, web_letters_A_web_numbers_1-web_letters_A_web_numbers_76 其他时候, web_letters_B_web_numbers_1-web_letters_B_web_numbers_100

当我的循环点击* _77时,页面上方的字母A显示* _76中的内容,所以我很高兴,除了我将这些观察结果读取两次,但我实际上可以修复此删除重复项的最后一步。但是,一旦找到重复的观察结果,我希望脚本转到字母B.有什么建议吗?

require(plyr)
require(XML)
dat <- data.frame()

for (A in letters){  
    for(i in 1:100) { 
      dat.pre <- readHTMLTable((paste("web_letters_",A,"_web_numbers_", i, sep = '')),   which=1)
    n <- max(length(dat), length(dat.pre))
    length(dat) <- n
    length(dat.pre) <- n
    dat <- rbind(dat, dat.pre)  
  }
}

0 个答案:

没有答案