从脚本设置Scrapy start_urls

时间:2014-05-05 19:07:04

标签: python python-2.7 wxpython web-scraping scrapy

我有一个有效的scrapy蜘蛛,我可以通过example here之后的单独脚本运行它。我还为我的脚本创建了一个wxPython GUI,它只包含一个多行TextCtrl,供用户输入要抓取的URL列表和要提交的按钮。目前start_urls被硬编码到我的蜘蛛中 - 如何将我在TextCtrl中输入的URL传递给我的蜘蛛中的start_urls数组?在此先感谢您的帮助!

2 个答案:

答案 0 :(得分:6)

alecxe回答对我不起作用。我的解决方案适用于Scrapy == 1.0.3:

from scrapy.crawler import CrawlerProcess
from tutorial.spiders.some_spider import SomeSpider

process = CrawlerProcess()

process.crawl(SomeSpider, start_urls=["http://www.example.com"])
process.start()

将来可能对某人有帮助。

答案 1 :(得分:4)

只需在start_urls个实例上设置Spider

spider = FollowAllSpider(domain=domain)
spider.start_urls = ['http://google.com']