应用错误收集

时间：2010-09-28 17:48:02

标签： ajax javascript-events javascript

这个想法非常简单：

想象一个简单的白页，其中包含带有单个输入标签的表单（如谷歌主页）。当我在此表单中插入博客帖子的链接时，javascript-crawler会搜索blogpost网页中的第一张图片（通过ajax），将其显示在白页中并将其保存在我的服务器上。

此爬虫的工作方式与Digg和Facebook-wall相同。

我必须为此抓取工具使用什么功能？

答案 0 :(得分：3)

由于cross cross domain restrictions纯javascript抓取工具不常见且实际可行。您可能需要设置服务器端脚本，该脚本将接收表单中输入的地址，获取远程资源的内容并解析html以获取图像。

答案 1 :(得分：2)

Darin是对的，javascript无法从其他域请求内容。但它可以动态地将脚本标签添加到文档中，并包含来自其他域的一些脚本。（详细信息：jsonp）

我建议你使用YQL。您只需编写Javascript代码，就可以使用Yahoo的YQL库抓取您想要的每个页面。 Yahoo服务器获取您请求的URL，解析HTML并向您发送所请求的部分文档。