我尝试使用cURL从网页上实用地收集信息。我需要的信息非常基本,页面非常基本。
使用cURL时收到503错误。当我在浏览器,同一台机器上访问同一页面时,页面加载很棒。我读过这可能是因为网站要求在查询时传递cookie。我已经尝试了这一点,但不可否认,我可能做错了(我从网络浏览器的检查员那里抓住了cookie)。
curl --cookie "sessionId=.eJxrYKotZNQI5S9OLS7OzM-LT81LTMpJTfFmChVIzEktKolPzkhNzo4vycxNLWRKTkksSQUxueCMQuZQLvaHHGI82lqMp0KTCypLqrjiQ0OcuQpZNIMKWduCCtlCuUvyi-NLC0B6UgrZO0v1ACyMJy0:1dk8X0:WIgK35IaFa7RbCe7EqpSMtLjK9w" https://www.appannie.com/en/apps/ios/app/284815942/ -o /tmp/test.html
我是一个非常基本的用户;具有非常基本的知识。我很有可能错过了一些明显的东西。我已经收集了我试图使用nginx访问的网站,如果这是一个重要的警告。
答案 0 :(得分:0)
某些网站会禁用curls user-agent,而某些网站会因缺少标题而禁用浏览。我尝试了下面的卷曲,效果很好
curl 'https://www.appannie.com/en/apps/ios/app/284815942/' -H 'pragma: no-cache' -H 'dnt: 1' -H 'accept-encoding: gzip, deflate, br' -H 'accept-language: en-US,en;q=0.8' -H 'upgrade-insecure-requests: 1' -H 'user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36' -H 'accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8' -H 'cache-control: no-cache' -H 'authority: www.appannie.com' --compressed
这就是浏览器制作它的方式,这就是你应该尝试和复制的内容