curl似乎不适用于“动态blogspot模型”

时间:2014-12-06 09:10:42

标签: php curl

cURL:我正在尝试获取/保存某些“动态模型的blogspot”的html页面,例如:

http://jackturf.blogspot.fr/

我在dos命令行上的简单试用:

"D:\EXE_UTIL\CURL\curl.exe"  -o "d:\temp.html" "http://jackturf.blogspot.fr/"

Received=21597 bytes  

但google chrome CTRL-S保存为HTML COMPLETE PAGE = 160 kb!

我使用curl已经很多年了,即使使用cookies也一直都好,但现在使用这个“谷歌动态模型”我不知道如何获得完整的html页面大小?

我的cURL版本:(我也尝试过其他几个以前的版本......)

curl 7.39.0 (i386-pc-win32) libcurl/7.39.0 OpenSSL/1.0.0o zlib/1.2.8 libidn/1.18 libssh2/1.4.3 librtmp/2.3
Protocols: dict file ftp ftps gopher http https imap imaps ldap pop3 pop3s rtmp rtsp scp sftp smtp smtps telnet tftp 
Features: AsynchDNS IDN Largefile SSPI SPNEGO NTLM SSL libz 

任何人都有dos-command-line工作的解决方案?

2 个答案:

答案 0 :(得分:0)

大小的差异是由于curl没有在页面内执行JavaScript,而您的浏览器在使用CTRL-S保存之前执行JavaScript(从而更改了HTML)。

要获得相同的结果,您必须在保存之前在页面内执行JavaScript。 This is not possible with curl,所以你可能想看看其他选择。

答案 1 :(得分:0)

简单的流量分析显示json提要可用于解析。试试这个:

"D:\EXE_UTIL\CURL\curl.exe" -o "d:\temp.json" "http://jackturf.blogspot.fr/feeds/posts/default?alt=json&orderby=published"