从多个URL刮取链接

时间:2013-04-15 15:54:41

标签: python url scraperwiki

我正在使用ScraperWiki从london-gazette.co.uk站点获取链接。如何编辑代码以便我可以在底部粘贴多个单独的搜索网址,这些网址都会整理到同一个数据存储区中?

目前我可以粘贴新的URL,点击运行,然后将新数据添加到旧数据的背面,但我想知道是否有办法加快速度并让刮刀进入一次处理几个URL?我将更改网址的“通知代码”部分:issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1

抱歉 - Stack Overflow的新手,我的编码知识几乎不存在,但代码在这里:https://scraperwiki.com/scrapers/links_1/edit/

1 个答案:

答案 0 :(得分:0)

你联系到的刮刀似乎是空的,但我看了Rebecca Ratcliffe的原始刮刀。如果你的是相同的,你只需要将你的URL放到一个列表中,然后用for循环遍历它们:

urls = ['/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1', 
'/issues /2013-01-15;2013-01-15/all=NoticeCode%3a2453/start=1',
'/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2462/start=1', 
'/issues/2012-02-10;2013-02-20/all=NoticeCode%3a2441/start=1']

base_url = 'http://www.london-gazette.co.uk'
for u in urls:
    starting_url = urlparse.urljoin(base_url, u)
    scrape_and_look_for_next_link(starting_url)

只需查看我复制并相应调整的this scraper即可。