Question

我在从此链接中捕获视频中的网址时遇到问题：

http://bleachproject.com/Bleach.php?epi=001&url=/epis/LQ/bP001_LQ.mp4

我需要获取视频链接才能下载视频。看来如果我试图通过F12获取它，检查元素......但是如果我尝试获取HTML源代码，它就不会出现。我尝试使用Jsoup，HTMLUnit但仍然没有工作...... 有人知道从这个网页获取整个html源的另一种方法吗？

Answer 1

在此地址上使用curl时，我得到以下回复：

HTTP/1.1 301 Moved Permanently
Server: nginx/1.6.2
Date: Wed, 26 Nov 2014 13:41:35 GMT
Content-Type: text/html
Location: http://www.bleachproject.net/Bleach.php?epi=001&url=/epis/LQ/bP001_LQ.mp4
Content-Length: 184
Age: 482
Via: 1.1 isrwbs7

调用新地址的curl会产生另一个重定向：

HTTP/1.1 301 Moved Permanently
Server: nginx/1.6.2
Date: Wed, 26 Nov 2014 13:39:56 GMT
Content-Type: text/html
Location: http://www.aliancaproject.com.br
Content-Length: 184
Age: 482
Via: 1.1 isrwbs7

我的猜测是在会话中查看了原始页面，这就是我获得重定向的原因。我建议您使用像Chrome开发人员工具或代理服务器（如Fidler）这样的工具来查看链接，并查看实际的请求和响应。一旦您可以正确建模Web导航，您就可以使用无头浏览器（如HTMLUnit）来模拟此导航。

另一个选择是使用Selenium插件并将其录制转换为Java代码。

如何从确定的URL获取整个html源代码？

1 个答案: