我在从此链接中捕获视频中的网址时遇到问题:
http://bleachproject.com/Bleach.php?epi=001&url=/epis/LQ/bP001_LQ.mp4
我需要获取视频链接才能下载视频。看来如果我试图通过F12获取它,检查元素......但是如果我尝试获取HTML源代码,它就不会出现。 我尝试使用Jsoup,HTMLUnit但仍然没有工作...... 有人知道从这个网页获取整个html源的另一种方法吗?
答案 0 :(得分:0)
在此地址上使用curl时,我得到以下回复:
HTTP/1.1 301 Moved Permanently
Server: nginx/1.6.2
Date: Wed, 26 Nov 2014 13:41:35 GMT
Content-Type: text/html
Location: http://www.bleachproject.net/Bleach.php?epi=001&url=/epis/LQ/bP001_LQ.mp4
Content-Length: 184
Age: 482
Via: 1.1 isrwbs7
调用新地址的curl会产生另一个重定向:
HTTP/1.1 301 Moved Permanently
Server: nginx/1.6.2
Date: Wed, 26 Nov 2014 13:39:56 GMT
Content-Type: text/html
Location: http://www.aliancaproject.com.br
Content-Length: 184
Age: 482
Via: 1.1 isrwbs7
我的猜测是在会话中查看了原始页面,这就是我获得重定向的原因。我建议您使用像Chrome开发人员工具或代理服务器(如Fidler)这样的工具来查看链接,并查看实际的请求和响应。一旦您可以正确建模Web导航,您就可以使用无头浏览器(如HTMLUnit)来模拟此导航。
另一个选择是使用Selenium插件并将其录制转换为Java代码。