当我使用curl
来检索html页面时,我面对以下消息:
Please turn JavaScript on and reload the page
。
我不知道如何处理这个问题,因此我可以在网络浏览器上打开同一页面。
[问] 我如何解决此问题,以便仅使用终端检索html-page的信息?
$ curl http://bsod.pw/
<html>
<head>
<script src="https://www.google.com/recaptcha/api.js" async defer></script>
<script>
function onSubmit(token) {
document.getElementById("recaptcha-form").submit();
}
</script>
</head>
<body>
<div id="recaptcha-loading" style="margin: 0px; padding: 0px; position: fixed; right: 0px; top: 0px; width: 100%; height: 100%; z-index: 30001; opacity: 0.8;">
<p style="position: absolute; color: White; top: 30%; left: 40%;">
<img src="https://250410.selcdn.ru/antiddos/lg.rotating-balls-spinner.gif">
</p>
</div>
<center><noscript><h1 style="text-align:center;color:red;"><strong>Please turn JavaScript on and reload the page.</strong></h1></noscript>
<form id='recaptcha-form' action="/captcha" method="POST">
<button id='submitbutton' style="visibility:hidden;" class="g-recaptcha" data-badge=bottomright data-sitekey="6LcigjgUAAAAACyu9edrmWKmIce8h0kIFQz7iyRo" data-callback='onSubmit'></button>
<script>
window.onload = function(){
document.getElementById('submitbutton').click();
}
</script>
<br/>
</form>
</center>
</body>
</html>
如果您在网站上inspect element
Any
),则可以看到更详细的html代码。
感谢您宝贵的时间和帮助。
答案 0 :(得分:5)
没有&#34;错误&#34;。您使用curl发出GET请求。它会返回一些HTML。 HTML恰好包含了浏览器应该加载和执行的JavaScript代码的链接。您的浏览器(已激活JS)可以加载.js
脚本并运行它们。这些脚本会生成一些整洁的网页。如果您没有加载链接的脚本,并且没有执行它们,那么您将无法从页面中获取更多内容。请考虑使用合适的无头浏览器(参见下面的示例)。
这是一个小例子,应该证明这一点:
<!DOCTYPE html>
<html>
<head>
<title>Source code empty, page full!</title>
</head>
<body>
<div id="fillThis">
<p>Almost nothing there in the source code!</p>
<p>... but inspect this div after JS is executed.</p>
</div>
<script>
var fillThis = document.getElementById("fillThis");
for (i = 0; i<1000; i++) {
var child = document.createElement('p');
child.innerHTML = "tons of content " + i;
fillThis.appendChild(child);
}
</script>
</body>
</html>
只需将其另存为&#34; something.html&#34;,然后在浏览器中将其打开即可。当您要求浏览器显示页面源时,这正是您将获得的。但是,当您通过右键单击div
进行检查时,它会显示其附加了> 1000个子元素。这些是由JS在您的浏览器中生成的,它们不是以HTML格式来自服务器。
修改强>
我尝试使用PhantomJS访问该页面,它几乎可以工作。这是我做的:
#!/bin/bash
cat <<HereDoc > /tmp/phantomjsScript.js
var page = require('webpage').create();
page.open('http://example.com', function(status) {
if(status === "success") {
console.log(page.frameContent);
}
phantom.exit();
});
HereDoc
phantomjs /tmp/phantomjsScript.js
这是一个bash脚本,它在/tmp
中生成一个帮助脚本,然后由phantomjs
执行。 PhantomJS加载网站,并执行JavaScript。遗憾的是,您链接到的网站受验证码机制保护,无法直接访问,因此上述示例使用example.com
代替。如果您可以以某种方式解决验证码,您可能可以使用类似的脚本来加载HTML,运行JS,然后将渲染的DOM转储到控制台。
答案 1 :(得分:-1)
尝试在chrome上运行代码。实际上错误是由验证码连接引起的,错误显示“无法联系reCAPTCHA。请检查您的连接,然后重试。”