是否可以在javascript中编写Web爬虫?

时间:2011-03-02 14:34:35

标签: javascript firefox

我想要以下功能,并且我知道javascript中的客户端域限制,但我不知道这些限制是否适用于我希望抓取工具执行的操作。

  1. Javascript将给定网站的网址的文本内容加载到div或将其分配给var。

  2. 然后应该从文本中解析标签。

  3. 3应搜索文本正文以查找特定单词。如果找到该单词,则应该使用包含该单词的邻近句子并将其显示在警告消息上。

    我正在编写一个firefox应用程序,因此必须在客户端完成。

2 个答案:

答案 0 :(得分:3)

正如您刚才所说,您无法使用Javascript从其他域中检索任意内容。

但是,您可以在自己的域中编写服务器端代理,将代理转发给任意URL并传递响应。

答案 1 :(得分:1)

您可以做的最好和最简单的事情是:

  • 在您的服务器上创建一个接受参数的动态页面:example page.php?url =
  • 你的javascript将AJAX那个页面带有它需要的url所以它可以通过你的php脚本来回复HTML然后在js / client中解析它