使用芹菜从Flask运行Scrapy Spider(我们可以简单地触发scrapy crawl shell命令在后台运行Spider)

时间:2019-05-13 06:27:38

标签: python flask web-scraping scrapy celery

我有一个Flask应用,可以接受带有表单的用户请求。 当用户提交一些查询参数(例如电子商务的类别名称(电子))时,我会在Flask应用程序中获取此参数,然后从文件夹路径运行scrapy crawl命令。

表格请求: 用户1和用户2的查询请求将如下所示。

scrapy crawl spidername -a query='Electronics'
scrapy crawl spidername -a query='Fashion'

我的代码:

import os 

@app.route('/getdata',methods=['POST','GET']):
    if request.method =='POST':
    query = request.form['user_query-string']


    os.chdir('/path_to_scrapy_spider_file')
    os.system('scrapy crawl spidername -a query=\'{}\''.format(query))

此抓取结果并存储在相应的文件中,但一次仅一次单个请求。

问题:当用户多次增加对一个蜘蛛的请求计数时。 示例:对于蜘蛛侠,用户1将针对电子产品,用户2将针对时尚。

如何处理这种情况? 我应该去子加工还是芹菜会是个好选择? 使用烧瓶搜寻数据的最佳做法是什么?

0 个答案:

没有答案