我有一个Python Scrapy蜘蛛,我想在Heroku或类似的时间间隔定期运行。 它生成一个JSON文件,我想提交给Github仓库。
鉴于Heroku或其他类似平台,如何将其设置为自动提交,运行后?
答案 0 :(得分:0)
您可以编写一个项目管道来保存项目的静态列表。
为此管道提供一个名为spider_closed的函数,并使用调度程序将该函数作为spider_closed信号的信号处理程序附加。
在spider_closed中使用json.loads来序列化您的数据。将其保存到文件中。并将其提交给github。
这个repo有很好的代码示例:
https://github.com/dm03514/CraigslistGigs/blob/master/craigslist_gigs/pipelines.py
这似乎是一个用于git部分的好库:
https://pypi.python.org/pypi/GitPython/
HTH - 如果您需要更多帮助,我很乐意更新此回复。