我需要获取pinnaclesports.com的HTML源代码。问题是它检测是否启用了cookie和JS,如果没有,它只返回一些页面
此网站需要启用JavaScript和Cookie。请更改您的浏览器设置或升级您的浏览器。
使用cURL时,有什么方法可以欺骗JS支持吗?
编辑:我可以使用无头浏览器,它可以作为Perl / Ruby模块运行,也可以用PHP编写
答案 0 :(得分:2)
我发现了, 如果您进行无cookie请求,将返回一个页面,该页面将使用javascript设置cookie,即使用curl获取的页面。
进行另一次像这样的卷曲调用
curl https://www.pinnaclesports.com/ --cookie "YPF8827340282Jdskjhfiw_928937459182JAX666=122.167.231.139"
即。你必须打2个电话 1)使cookie少打电话,阅读和正则表达式找到cookiename。 2)设置cokie名称后发出第2个请求。 这将解决你的问题。
OR
只需使用YQL
select * from html where url="https://www.pinnaclesports.com/"
将你的卷曲指向here
答案 1 :(得分:1)
其他sugestion是设置用户代理,此解决方案适用于Google Groups的解析器:
curl -L -v "https://groups.google.com/d/forum/<GROUP-NAME>" -A "Mozilla/5.0 (compatible; MSIE 7.01; Windows NT 5.0)"