wget没有返回正确的页面

时间:2015-05-19 18:53:13

标签: linux bash scripting automation wget

我正在尝试使用wget编写进程脚本。我有一个网站列表,我需要检查他们是否适合移动设备并使用谷歌网站:https://www.google.com/webmasters/tools/mobile-friendly/。我没有去网站并输入每个地址,而是想编写一个脚本来自动化它。

例如,检查亚马逊的例子是:

wget https://www.google.com/webmasters/tools/mobile-friendly/?url=amazon.com

我尝试更改用户代理字符串并接受cookie,但它只是加载主页面。

2 个答案:

答案 0 :(得分:0)

@echo off setlocal enabledelayedexpansion for /f %%i in (d:\Projects\proj1\attachments) do ( copy %%i c:\attachments if %errorlevel% NEQ 0 echo error on %%i >>errorlog.txt ) echo done. 将按原样下载该页面。这意味着JS代码不会被执行。

也许可以提供帮助:

答案 1 :(得分:0)

谢谢大家的帮助。我能够找到出路。一种方法是使用phantomjs。您创建了一个名为save.js的脚本,如下所示:

var system = require('system');
var page = require('webpage').create();

page.open(system.args[1], function()
{
    console.log(page.content);
    phantom.exit();
});

然后我按如下方式运行代码:

phantomjs save.js http://www.google.com> output.html

另一种方法是使用selenium和python。这是python的代码片段,它将打印html。

from selenium import webdriver

driver = webdriver.PhantomJS()
driver.set_window_size(1024,768)
driver.get('www.google.com')
print driver.page_source
driver.quit()