我有个人项目让我使用Selenium从私人[邮件,密码]夫妇那里获取公共网址。
我想在此网址上保存信息,然后我按照Scrapy教程了解如何使用此工具执行此操作。但有没有办法在MyScrapClass.crawl()
之类的Python项目中启动爬网,而不是使用linux命令scrapy crawl MyScrapProject
?
答案 0 :(得分:0)
使用CrawlerProcess或CrawlerRunner类在python脚本中运行scrapy ..
http://doc.scrapy.org/en/latest/topics/practices.html
的示例import scrapy
from scrapy.crawler import CrawlerProcess
class MySpider(scrapy.Spider):
# Your spider definition
...
process = CrawlerProcess()
process.crawl(MySpider)
# the script will block here until the crawling is finished
process.start()