需要将现有应用程序与社交媒体监控相关联。什么是爬虫的常见输出格式。它会是XML,JSON吗?或者它根据爬虫而变化,例如:Python,Java?
答案 0 :(得分:1)
它会有所不同,而且,您可能不希望输出“文件”,因为网站可能很大。
我在ruby中编写了一个名为cobweb的爬虫(http://github.com/stewartmckee/cobweb),它使用哈希作为其数据模型。收到每个页面后,您将看到哈希,以执行您希望的任何操作。
出于兴趣,您希望从爬网中获得哪些信息?只是想一个相对简单的补充就是为蜘蛛网创建一个web api,那会是你可以使用的东西吗?