Google网址收集器中的文档未定义

时间:2011-03-09 05:43:37

标签: javascript url

我从Google获取代码以从Google收集网址。我把它保存为filename.js。当我运行文件时,它显示“'文档'未定义”。显示问题的代码部分是

// ==UserScript==
// @name           Google URL Harvester
// @namespace      http://userscripts.org/scripts/show/42998
// @description    Harvests URLs from a Google Search
// @include        http://www.google.co.uk/
// @include        http://www.google.com/
// ==/UserScript==

var btn_container;
var inputs = document.getElementsByTagName("input");
for (var i = 0; i < inputs.length; i++) {
    if (inputs[i].name == "btnG")
        btn_container = inputs[i].parentNode;
}

function find_next_link(html) {
    var url = html.match(/(<a href="[^"]+">)\s*<span[^>]+style="[^"]*background-position:\s?-76px\s/);
    if (url == null)
        return false;

    var div = document.createElement("div");
    div.innerHTML = url[1];
    return div.firstChild.href;
}

function harvest(query_url, callback) {
    ajax(query_url, function(e){
        var als = e.match(/<a[^>]+class=l[^>]*>/g);
        for (var i = 0; i < als.length; i++) {
            urls.push(als[i].match(/href="([^"]+)"/)[1]);
        }
        var next_url = find_next_link(e);
        if (next_url)
            harvest(next_url, callback);
        else
            callback();
    });
}

function ajax(url, callback) {
    var req = new XMLHttpRequest();
    req.onreadystatechange = function() {
        if (req.readyState == 4 && req.status == 200) {
            callback(req.responseText);
        }
    }
    req.open("GET", url, true);
    req.send("");
}

var new_button = document.createElement("input");
new_button.type = "button";
new_button.value = "Harvest URLs";
new_button.setAttribute("onsubmit", "return false;");
btn_container.appendChild(new_button);
var urls = [];
new_button.addEventListener("click", function(){
    var query_url = unsafeWindow.document.forms[0].action + "?num=100&q="+escape(unsafeWindow.document.forms[0].q.value);
    document.body.innerHTML = "<img src='http://oneworldwebsites.com/images/wheel%20throbber.gif' />";
    harvest(query_url, function() {
        document.body.innerHTML = urls.join("<br/>");
    });
},false);

这里我没有定义文件(如果有必要)。任何人都可以纠正这段代码中的错误。操作系统是Windows 7。

我将此文档作为harv.js保存到我的桌面并运行它。我做错了吗?

2 个答案:

答案 0 :(得分:1)

谷歌像大多数网站一样随着时间的推移更新其结构。

for (var i = 0; i < inputs.length; i++) {
    if (inputs[i].name == "btnG")
        btn_container = inputs[i].parentNode;
}

需要成为

for (var i = 0; i < inputs.length; i++) {
    if (inputs[i].name == "btnK") //<<------G to K
        btn_container = inputs[i].parentNode;
}

答案 1 :(得分:0)

我可以猜测错误是因为您尝试访问“input”元素,之后再创建它。此外,您不应该使用html元素作为JavaScript中的标识符。您也可以使用Firebug来查明错误。