我正在尝试从网站上抓取一些数据,这些数据的地址由字母和数字组成。以下代码有效,但不是理想的解决方案。虽然我事先知道我需要遍历字母AZ,但是网址中的实际数字是不同的,这取决于它是A,B,C等......但是,没有一个字母超过100。
因此有时我有地址, web_letters_A_web_numbers_1-web_letters_A_web_numbers_76 其他时候, web_letters_B_web_numbers_1-web_letters_B_web_numbers_100
当我的循环点击* _77时,页面上方的字母A显示* _76中的内容,所以我很高兴,除了我将这些观察结果读取两次,但我实际上可以修复此删除重复项的最后一步。但是,一旦找到重复的观察结果,我希望脚本转到字母B.有什么建议吗?
require(plyr)
require(XML)
dat <- data.frame()
for (A in letters){
for(i in 1:100) {
dat.pre <- readHTMLTable((paste("web_letters_",A,"_web_numbers_", i, sep = '')), which=1)
n <- max(length(dat), length(dat.pre))
length(dat) <- n
length(dat.pre) <- n
dat <- rbind(dat, dat.pre)
}
}