Curl Scraper在本地主机上运行,​​但不在联机服务器上运行

时间:2018-10-23 02:12:28

标签: php curl web-scraping scrapy file-get-contents

我正在尝试刮擦https://www.gst.gov.in

  def rotate(self): 
      lst=list(self.balls)
      lst = lst[1:]+lst[:1]
      self.balls=tuple(lst)

此代码可在localhost上完美运行,但不能在服务器上运行。
我尝试过使用带有自定义标头和引荐来源的各种curl方法的不同服务,但没有运气。在服务器上,出现连接超时错误。

如果我使用任何其他https URL或其他站点,则可以正常工作。问题在于此特定的URL,如果有人可以告诉远程服务器是否阻止了该请求,那么任何人都可以帮助抓取该页面,然后如何绕过此请求。

2 个答案:

答案 0 :(得分:0)

这是一个政府网站-最有可能阻止来自非本地地理区域的任何IP。

即您的服务器需要在印度或具有印度代理,因为您正尝试下载印度政府页面。

答案 1 :(得分:0)

在删除 .htaccess 等配置文件后,请检查它是否有效。如果您使用的是 Html dom,那么扩展隐藏器可能会引起麻烦(我的观点)。例如。下面提到的代码会导致简单的 Html dom 出现问题:

Options +FollowSymLinks -MultiViews
RewriteEngine On
RewriteBase /
RewriteCond %{THE_REQUEST} ^[A-Z]{3,}\s([^.]+)\.php [NC]
RewriteRule ^ %1 [R,L,NC]
RewriteCond %{REQUEST_FILENAME}.php -f
RewriteRule ^ %{REQUEST_URI}.php [L]