我正在使用ScraperWiki从london-gazette.co.uk站点获取链接。如何编辑代码以便我可以在底部粘贴多个单独的搜索网址,这些网址都会整理到同一个数据存储区中?
目前我可以粘贴新的URL,点击运行,然后将新数据添加到旧数据的背面,但我想知道是否有办法加快速度并让刮刀进入一次处理几个URL?我将更改网址的“通知代码”部分:issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1
抱歉 - Stack Overflow的新手,我的编码知识几乎不存在,但代码在这里:https://scraperwiki.com/scrapers/links_1/edit/
答案 0 :(得分:0)
你联系到的刮刀似乎是空的,但我看了Rebecca Ratcliffe的原始刮刀。如果你的是相同的,你只需要将你的URL放到一个列表中,然后用for循环遍历它们:
urls = ['/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1',
'/issues /2013-01-15;2013-01-15/all=NoticeCode%3a2453/start=1',
'/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2462/start=1',
'/issues/2012-02-10;2013-02-20/all=NoticeCode%3a2441/start=1']
base_url = 'http://www.london-gazette.co.uk'
for u in urls:
starting_url = urlparse.urljoin(base_url, u)
scrape_and_look_for_next_link(starting_url)
只需查看我复制并相应调整的this scraper即可。