应用错误收集

Web Crawler的通用输出格式

时间：2012-08-20 09:20:57

标签： web-crawler

需要将现有应用程序与社交媒体监控相关联。什么是爬虫的常见输出格式。它会是XML，JSON吗？或者它根据爬虫而变化，例如：Python，Java？

1 个答案:

答案 0 :(得分：1)

它会有所不同，而且，您可能不希望输出“文件”，因为网站可能很大。

我在ruby中编写了一个名为cobweb的爬虫（http://github.com/stewartmckee/cobweb），它使用哈希作为其数据模型。收到每个页面后，您将看到哈希，以执行您希望的任何操作。

出于兴趣，您希望从爬网中获得哪些信息？只是想一个相对简单的补充就是为蜘蛛网创建一个web api，那会是你可以使用的东西吗？