如何设置运行scrapy作为python脚本的默认设置?

时间:2016-11-18 09:17:16

标签: python python-2.7 scrapy scrapy-spider

我想将scrapy作为python脚本运行,但我无法弄清楚如何正确设置设置或如何提供它们。我不确定它是否是设置问题,但我认为是这样。

我的配置:

  • Python 2.7 x86(作为虚拟环境)
  • Scrapy 1.2.1
  • Win 7 x64

我从https://doc.scrapy.org/en/latest/topics/practices.html#run-scrapy-from-a-script获取了建议,让它运行起来。我有以下建议的一些问题:

  

如果您在Scrapy项目中,可以使用一些其他帮助程序在项目中导入这些组件。您可以自动导入将其名称传递给CrawlerProcess的蜘蛛,并使用get_project_settings获取具有项目设置的Settings实例。

那么在Scrapy项目中是什么意思"?当然我必须导入库并安装依赖项,但我想避免使用scrapy crawl xyz启动爬网过程。

这是myScrapy.py的代码

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.item import Item, Field
import os, argparse


#Initialization of directories
projectDir = os.path.dirname(os.path.realpath('__file__'))
generalOutputDir = os.path.join(projectDir, 'output')

parser = argparse.ArgumentParser()
parser.add_argument("url", help="The url which you want to scan", type=str)
args = parser.parse_args()
urlToScan = args.url

#Stripping of given URL to get only the host + TLD
if "https" in urlToScan:
    urlToScanNoProt = urlToScan.replace("https://","")
    print "used protocol: https"
if "http" in urlToScan:
    urlToScanNoProt = urlToScan.replace("http://","")
    print "used protocol: http"

class myItem(Item):
    url = Field()

class mySpider(CrawlSpider):
    name = "linkspider"
    allowed_domains = [urlToScanNoProt]
    start_urls = [urlToScan,]
    rules = (Rule(LinkExtractor(), callback='parse_url', follow=True), )

    def generateDirs(self):
        if not os.path.exists(generalOutputDir):
            os.makedirs(generalOutputDir)
        specificOutputDir = os.path.join(generalOutputDir, urlToScanNoProt)
        if not os.path.exists(specificOutputDir):
            os.makedirs(specificOutputDir)
        return specificOutputDir

    def parse_url(self, response):
        for link in LinkExtractor().extract_links(response):
            item = myItem()
            item['url'] = response.url
        specificOutputDir = self.generateDirs()
        filename = os.path.join(specificOutputDir, response.url.split("/")[-2] + ".html")
        with open(filename, "wb") as f:
            f.write(response.body)
        return CrawlSpider.parse(self, response)
        return item

process = CrawlerProcess(get_project_settings())
process.crawl(mySpider)
process.start() # the script will block here until the crawling is finished

为什么我必须拨打process.crawl(mySpider)而不是process.crawl(linkspider)?我认为获取设置是一个问题,因为它们设置在" normal" scrapy-project(你必须运行scrapy crawl xyz),因为putput说 2016-11-18 10:38:42 [scrapy] INFO: Overridden settings: {} 我希望你理解我的问题(英语不是我的母语......;)) 提前谢谢!

1 个答案:

答案 0 :(得分:3)

使用脚本(而不是scrapy crawl)运行抓取时,其中一个选项确实是使用CrawlerProcess

  

那么“在Scrapy项目中”是什么意思?

如果您在使用scrapy startproject创建的scrapy项目的根目录下运行脚本,即在scrapy.cfg文件中包含[settings]部分,则意味着什么。< / p>

  

为什么我必须调用process.crawl(mySpider)而不是process.crawl(linkspider)?

阅读the documentation on scrapy.crawler.CrawlerProcess.crawl() for details

  

参数:
  crawler_or_spidercls(爬虫实例,蜘蛛子类或字符串) - 已经创建了爬虫,或项目中的蜘蛛类或蜘蛛的名称来创建它

我不知道框架的这一部分,但我怀疑只有一个蜘蛛名称 - 我相信你的意思是而不是process.crawl("linkspider") ,并且在scrapy项目之外, scrapy不知道在哪里寻找蜘蛛(它没有提示)。因此,告诉scrapy运行哪个蜘蛛,也可以直接给出类(而不是蜘蛛类的实例)。

get_project_settings()是帮手,但基本上CrawlerProcess需要使用Settings对象进行初始化(请参阅https://docs.scrapy.org/en/latest/topics/api.html#scrapy.crawler.CrawlerProcess

事实上,它还接受设置dictinternally converted into a Settings instance),如the example you linked to所示:

process = CrawlerProcess({
    'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})

因此,与scrapy默认值相比,根据您需要覆盖的设置,您需要执行以下操作:

process = CrawlerProcess({
    'SOME_SETTING_KEY': somevalue,
    'SOME_OTHERSETTING_KEY': someothervalue,
    ...
})
process.crawl(mySpider)
...