Question

我正在使用ScraperWiki从london-gazette.co.uk站点获取链接。如何编辑代码以便我可以在底部粘贴多个单独的搜索网址，这些网址都会整理到同一个数据存储区中？

目前我可以粘贴新的URL，点击运行，然后将新数据添加到旧数据的背面，但我想知道是否有办法加快速度并让刮刀进入一次处理几个URL？我将更改网址的“通知代码”部分：issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1

抱歉 - Stack Overflow的新手，我的编码知识几乎不存在，但代码在这里：https://scraperwiki.com/scrapers/links_1/edit/

Answer 1

你联系到的刮刀似乎是空的，但我看了Rebecca Ratcliffe的原始刮刀。如果你的是相同的，你只需要将你的URL放到一个列表中，然后用for循环遍历它们：

urls = ['/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1', 
'/issues /2013-01-15;2013-01-15/all=NoticeCode%3a2453/start=1',
'/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2462/start=1', 
'/issues/2012-02-10;2013-02-20/all=NoticeCode%3a2441/start=1']

base_url = 'http://www.london-gazette.co.uk'
for u in urls:
    starting_url = urlparse.urljoin(base_url, u)
    scrape_and_look_for_next_link(starting_url)

只需查看我复制并相应调整的this scraper即可。

从多个URL刮取链接

1 个答案: