使用BeautifulSoup刮取多个页面3

时间:2016-04-07 07:45:49

标签: python beautifulsoup

我想为特定链接抓取多个页面。例如,我希望能够选择遵循特定迭代次数的链接。必须在用户输入后附加或替换初始输入的刮擦结果。我有:

library(data.table); library(dplyr)
Data %>% mutate(groupCat = rleid(Category),groupID = rleid(ID)) %>%
group_by(groupCat,groupID) %>% filter(row_number()==1 |row_number()==n() ) %>%
ungroup() %>% select(-starts_with("group")) 

我得到了我想要的迭代次数和具体的链接,但是我需要用变量" links"下的链接替换第一个url(用户输入)。每次迭代。

示例是用户输入类似http://www.columbia.edu/~fdc/的网址,其中包含页面上第9个链接的4次迭代。第一次迭代将返回http://www.columbia.edu/kermit/k95.html作为"链接"。我想第二次迭代给我第9个链接"链接"这应该是k95faq.html

0 个答案:

没有答案