在需要JavaScript支持的页面上的cURL请求

时间:2012-09-06 15:11:17

标签: javascript cookies curl web-scraping spoofing

我需要获取pinnaclesports.com的HTML源代码。问题是它检测是否启用了cookie和JS,如果没有,它只返回一些页面

  

此网站需要启用JavaScript和Cookie。请更改您的浏览器设置或升级您的浏览器。

使用cURL时,有什么方法可以欺骗JS支持吗?

编辑:我可以使用无头浏览器,它可以作为Perl / Ruby模块运行,也可以用PHP编写

2 个答案:

答案 0 :(得分:2)

我发现了, 如果您进行无cookie请求,将返回一个页面,该页面将使用javascript设置cookie,即使用curl获取的页面。

进行另一次像这样的卷曲调用

curl https://www.pinnaclesports.com/ --cookie "YPF8827340282Jdskjhfiw_928937459182JAX666=122.167.231.139"

即。你必须打2个电话 1)使cookie少打电话,阅读和正则表达式找到cookiename。 2)设置cokie名称后发出第2个请求。 这将解决你的问题。

OR
只需使用YQL

select * from html where url="https://www.pinnaclesports.com/" 

将你的卷曲指向here

答案 1 :(得分:1)

其他sugestion是设置用户代理,此解决方案适用于Google Groups的解析器:

curl -L -v "https://groups.google.com/d/forum/<GROUP-NAME>" -A "Mozilla/5.0 (compatible;  MSIE 7.01; Windows NT 5.0)"