如何在javascript中编写此爬虫?

时间:2010-09-28 17:48:02

标签: ajax javascript-events javascript

这个想法非常简单:

想象一个简单的白页,其中包含带有单个输入标签的表单(如谷歌主页)。 当我在此表单中插入博客帖子的链接时,javascript-crawler会搜索blogpost网页中的第一张图片(通过ajax),将其显示在白页中并将其保存在我的服务器上。

此爬虫的工作方式与Digg和Facebook-wall相同。

我必须为此抓取工具使用什么功能?

2 个答案:

答案 0 :(得分:3)

由于cross cross domain restrictions纯javascript抓取工具不常见且实际可行。您可能需要设置服务器端脚本,该脚本将接收表单中输入的地址,获取远程资源的内容并解析html以获取图像。

答案 1 :(得分:2)

Darin是对的,javascript无法从其他域请求内容。但它可以动态地将脚本标签添加到文档中,并包含来自其他域的一些脚本。 (详细信息:jsonp

我建议你使用YQL。您只需编写Javascript代码,就可以使用Yahoo的YQL库抓取您想要的每个页面。 Yahoo服务器获取您请求的URL,解析HTML并向您发送所请求的部分文档。