是否存在处理数据存档和存储的数据抓取框架?

时间:2012-08-11 20:59:08

标签: database-design screen-scraping web-scraping data-mining

我做了大量的网页抓取,每个项目我发现自己重写了一种框架/后端,包括将原始页面/文件保存到命名空间目录,有时甚至是数据库来跟踪日期,错误消息,等

我想知道是否有任何此类框架已经为此类任务构建。我并不是指实际的抓取任务本身,它是使用像Nokogiri / Mechanize / etc这样的HTML解析器的组合......但是用于管理刮刀和它们收集的数据。对于我所做的一些任务,数据收集有各个阶段。

例如:

  1. 浏览网站,下载原始网页
  2. 解析存储的原始页面,提取数据
  3. 清理数据(这可能涉及第2阶段可能无法实现的其他外部流程)
  4. 因此,任何帮助我跟踪刮刀启动时间,它们如何操作以及保存原始数据的位置的系统都非常棒。我想用MongoDB编写自己的东西,但我确信有人比我做得更好。

1 个答案:

答案 0 :(得分:0)

我知道irobotsoft scraper可以解决所有这些问题。它具有清理html页面和存储数据的大量功能,内置排序和数据库操作内置简单的UI。

此外,它是免费的。