从Scrapinghub下载项目的源代码

时间:2017-07-27 16:17:29

标签: python scrapy scrapinghub

我在Scrapinghub上部署了一个项目,我根本没有该代码的任何副本。

如何从Scrapinghub下载本地主机上的整个项目代码?

2 个答案:

答案 0 :(得分:4)

我可以使用

下载项目代码
shub fetch-eggs project_id_here

在项目打开时,可以从浏览器URL抓取project_id_here

结果文件将是*.egg,只需使用WinRAR或您使用的任何其他工具将其解压缩为ZIP文件。

附加说明: - SHUB没有用户友好的错误,一旦我使用其他帐户登录shub并试图下载另一个不同帐户的项目,所以请确保您登录到项目存在的同一个scrapinghub帐户试图下载。

答案 1 :(得分:-1)

据我所知,目前还没有用于在Scrapy Cloud上检索项目源代码的公共API。 (纠正我,如果错的话。)
但是确实可以在没有额外权限的情况下检索项目源代码。

当作业运行时,项目相关文件位于/app路径:

job-<some-job-id>:/app$ ls -la /app                                                                                                                                                                                                                                                                                              
total 48                                                                                                                                                                                                                                                                                                                      
drwxr-xr-x  5 root   root     4096 Jul 27 17:13 .                                                                                                                                                                                                                                                                             
drwxr-xr-x 82 root   root     4096 Jul 28 04:09 ..                                                                                                                                                                                                                                                                            
-rw-r--r--  1 root   root    26695 Jul 27 17:13 __main__.egg                                                                                                                                                                                                                                                                  
drwxr-xr-x  2 nobody nogroup  4096 May 23 07:34 addons_eggs                                                                                                                                                                                                                                                                   
drwxr-xr-x  2 nobody nogroup  4096 Jul 24 14:27 python                                                                                                                                                                                                                                                                        
-rw-r--r--  1 root   root       14 Jul 24 14:27 requirements.txt

文件__main__.egg包含所有项目源代码。

因此你可以:

  1. 选择当前正在运行的作业,访问其控制台:https://app.scrapinghub.com/p/[project_id]/[spider_id]/[job_id]/console
  2. .egg文件发送到您稍后可能检索到的位置,例如curl http://IP-address-of-your-own-server:8888/retrieve-file --data-binary @/app/__main__.egg(假设您已准备好接收数据的服务)。
  3. 或者,我想您可以随时联系Scrapinghub支持寻求帮助。