Question

我正在尝试从网站上抓取一些数据，这些数据的地址由字母和数字组成。以下代码有效，但不是理想的解决方案。虽然我事先知道我需要遍历字母AZ，但是网址中的实际数字是不同的，这取决于它是A，B，C等......但是，没有一个字母超过100。

因此有时我有地址， web_letters_A_web_numbers_1-web_letters_A_web_numbers_76 其他时候， web_letters_B_web_numbers_1-web_letters_B_web_numbers_100

当我的循环点击* _77时，页面上方的字母A显示* _76中的内容，所以我很高兴，除了我将这些观察结果读取两次，但我实际上可以修复此删除重复项的最后一步。但是，一旦找到重复的观察结果，我希望脚本转到字母B.有什么建议吗？

require(plyr)
require(XML)
dat <- data.frame()

for (A in letters){  
    for(i in 1:100) { 
      dat.pre <- readHTMLTable((paste("web_letters_",A,"_web_numbers_", i, sep = '')),   which=1)
    n <- max(length(dat), length(dat.pre))
    length(dat) <- n
    length(dat.pre) <- n
    dat <- rbind(dat, dat.pre)  
  }
}

网络抓取循环通过R中的字母和数字

0 个答案: