如何使用javascript从网站提取数据。

时间:2013-10-04 13:02:46

标签: javascript jquery web-crawler

嗨,这里有新手,所以请耐心等待。看起来像一个简单的工作,但我似乎找不到一个简单的方法来做到这一点。

所以我需要从网页“www.example.com/index.php”中提取特定文本。我知道文本将以带有特定ID的p标签提供。如何使用javascript提取此数据?

我目前正在尝试的是我的计算机上有我的javascript文件(trying.js),代码如下:

$(document).ready(function () {
    $.get("www.example.com/index.php", function(data) {
        console.log(data)
    }) ;
});

和运行javascript文件的html。

当我用firefox打开这个html页面时,它没有在控制台中显示任何内容。我如何获取网站的数据?我在这里正确的轨道吗?有更好的方法吗?

2 个答案:

答案 0 :(得分:2)

您正在寻找的是页面刮刀。 Javascript无法将其删除,因为它只能从您所在的域中收集数据。

例如,您可以在Ruby中构建它,并使用众多现有宝石中的一种来完成此类任务,例如https://github.com/assaf/scrapihttp://nokogiri.org/

答案 1 :(得分:2)

请查看Can Javascript read the source of any web page?

讨论了多种方式。希望它可以帮到你。