网站数据抓取工具,发布数据和遍历

时间:2013-03-27 07:23:20

标签: traversal web-crawler posting

虽然这些主题上有很多帖子,但我的问题有点具体。 我需要解析几个网站,一旦完成,我需要发送一些数据。例如,假设网站A为我提供了一个搜索选项卡,我需要以编程方式向其提供数据。生成的页面可能因目标站点的更新而有所不同。 我想编写这样一个爬虫。那么哪种工具/语言最能实现呢? 我已经精通java和C了,所以任何基于这些的东西都会非常有用。

1 个答案:

答案 0 :(得分:0)

我建议使用phantomjs。它完全免费,支持Windows,Linux,Mac。

  • 安装非常简单。
  • 执行使用非常简单 命令行。
  • 社区非常大,直接解决问题 问题很简单。
  • 它使用JavaScript作为脚本语言,所以你会很好,我猜,你的Java背景。
  • 您必须熟悉DOM结构。好吧,如果不知道它就不能编写爬虫(即使你选择了完全可视的解决方案)。

一切都取决于爬虫的执行频率:PhantomJs非常适合长期工作。如果您正在寻找一次性解决方案,请使用其他视觉效果,例如iMacros。它可以在Mozilla中作为扩展(免费)使用,并且有一个单独的版本需要花钱。

干杯