如何让网络爬虫收集数据?

时间:2010-08-03 20:07:58

标签: web-crawler

我知道这是一个很大的问题,但我是一个完全的初学者。我在HTML,PHP等方面的经验有限,并希望将某些东西拼凑在一起,但甚至不知道从哪里开始。

虽然我不一定能编写所有语言,只需要一点指导,我就可以进行平均剪切和粘贴,并且可以学到任何东西。我是一名学校老师,所以我有一个漫长的暑假来填补。

我想知道我是否可以获得一些可以搜索事件的日期和价格和/或旅行的信息,例如火车时间等,以列出教育旅行和类似的东西。

非常感谢任何帮助。

2 个答案:

答案 0 :(得分:3)

一种方法是使用不需要太多编码的工具。一旦你给它一个匹配的模式,SiteScraper就会学会你想要的东西。

答案 1 :(得分:2)

  1. 选择框架/图书馆/语言
  2. 您需要向相关网页发出HTTP GET请求。
  3. GET会返回你的html数据。使用您选择的任何语言/框架来解析您感兴趣的数据
  4. 存储已抓取的数据(在数据库中,或xml文件或文本文件等)
  5. 如果您发布详细的详细请求,我们可以提供帮助,但这是一般的想法

相关问题