Scrapy Splash设置:" SPLASH_URL"

时间:2017-06-17 05:00:26

标签: ubuntu scrapy scrapy-splash

我的PC上有一个scrapy splash spider的工作实例。然后我将它迁移到我的linux服务器。蜘蛛工作正常,检索结果没有飞溅。但是对于相同的网站,当我使用splash(https://github.com/scrapy-plugins/scrapy-splash)时,我的蜘蛛不会检索任何内容并返回404错误。我在我的服务器上设置了nginx和django,我想知道这是否与" SPLASH_URL"飞溅的设置。

1)我尝试将启动网址更改为以下所有内容:

SPLASH_URL = 'http://localhost:8050/'
SPLASH_URL = 'http://127.0.0.1:80/
SPLASH_URL = '<server ip>:8050/'

我还将端口更改为80和8050

2)从我的服务器运行curl时,我得到以下

 $ curl http://localhost:80/render.html?url=http%3A%2F%2Fwww.google.com

 <html>
   <head><title>404 Not Found</title></head>
   <body bgcolor="white">
     <center><h1>404 Not Found</h1></center>
     <hr><center>nginx/1.10.0 (Ubuntu)</center>
   </body>
 </html>

可能导致404错误的原因。如果我使用docker,Splash指令指定将url设置为localhost或docker ip。非常感谢提前!

1 个答案:

答案 0 :(得分:0)

我只想出了这个。由于某些错误导致我的启动服务器退出。正在运行docker start <containerId>修复了问题