我做了大量的网页抓取,每个项目我发现自己重写了一种框架/后端,包括将原始页面/文件保存到命名空间目录,有时甚至是数据库来跟踪日期,错误消息,等
我想知道是否有任何此类框架已经为此类任务构建。我并不是指实际的抓取任务本身,它是使用像Nokogiri / Mechanize / etc这样的HTML解析器的组合......但是用于管理刮刀和它们收集的数据。对于我所做的一些任务,数据收集有各个阶段。
例如:
因此,任何帮助我跟踪刮刀启动时间,它们如何操作以及保存原始数据的位置的系统都非常棒。我想用MongoDB编写自己的东西,但我确信有人比我做得更好。
答案 0 :(得分:0)
我知道irobotsoft scraper可以解决所有这些问题。它具有清理html页面和存储数据的大量功能,内置排序和数据库操作内置简单的UI。
此外,它是免费的。