Web Crawler的通用输出格式

时间:2012-08-20 09:20:57

标签: web-crawler

需要将现有应用程序与社交媒体监控相关联。什么是爬虫的常见输出格式。它会是XML,JSON吗?或者它根据爬虫而变化,例如:Python,Java?

1 个答案:

答案 0 :(得分:1)

它会有所不同,而且,您可能不希望输出“文件”,因为网站可能很大。

我在ruby中编写了一个名为cobweb的爬虫(http://github.com/stewartmckee/cobweb),它使用哈希作为其数据模型。收到每个页面后,您将看到哈希,以执行您希望的任何操作。

出于兴趣,您希望从爬网中获得哪些信息?只是想一个相对简单的补充就是为蜘蛛网创建一个web api,那会是你可以使用的东西吗?