我有一个网站正在抓取来自" ANY_XYZ_WEBSITE.com的数据。"
我正在使用cURL自动获取数据,然后根据我的需要对其进行修改。但最近" ANY_XYZ_WEBSITE.com"已阻止所有cURL请求,我无法从其网站获取数据。有没有其他方法来获取数据?
我在IIS上使用PHP。
答案 0 :(得分:2)
很可能,他们会根据User-Agent标题阻止你。
所以 -
curl_setopt($ch, CURLOPT_USERAGENT, "SomethingElse/1.0");
在关闭请求之前。
如果您想伪装成真正的浏览器,http://www.user-agents.org/是实际使用中不同用户代理的综合资源。
但我支持Polynomial的观点 - 这可能是网站阻止cURL的原因,所以在向他们请求数据时不要生气。
答案 1 :(得分:0)
您可以尝试更改代理字符串。 CURLOPT_USERAGENT
答案 2 :(得分:0)
至少在三秒的时间间隔内,在同一个域上并行/多次点击 。如果您可以等待尝试将其保持至少十秒。
在抓取域名之前,请确保您的抓取工具读取并关注robot.txt文件。
p,s,:你的卷曲没有被封锁,你被封锁了。而且它不是user_agent问题。
现在该怎么办?
有耐心。稍等片刻。刷新您的IP(如果是动态的)再次点击,但按照以上两条说明操作。如果仍然被阻止,您需要指定您正在谈论的代码和网站以获得合法的解决方案。