这个想法非常简单:
想象一个简单的白页,其中包含带有单个输入标签的表单(如谷歌主页)。 当我在此表单中插入博客帖子的链接时,javascript-crawler会搜索blogpost网页中的第一张图片(通过ajax),将其显示在白页中并将其保存在我的服务器上。
此爬虫的工作方式与Digg和Facebook-wall相同。
我必须为此抓取工具使用什么功能?
答案 0 :(得分:3)
由于cross cross domain restrictions纯javascript抓取工具不常见且实际可行。您可能需要设置服务器端脚本,该脚本将接收表单中输入的地址,获取远程资源的内容并解析html以获取图像。
答案 1 :(得分:2)