应用错误收集

使用动态页面抓取网站

时间：2010-12-08 09:48:47

标签： dom web-crawler aggregation

我需要抓取网站并在表单提交后从动态创建的页面中提取一些信息。

我需要抓取的信息主要来自这些网站上的数据库。

加了：

爬虫通常通过从一个超链接跳转到另一个超链接来工作。所以这些主要是静态页面。如何抓取不是静态存在但是动态创建的页面。

1 个答案:

答案 0 :(得分：1)

从爬虫的角度来看，没有太大的区别。你还在获得生成的HTML。

您唯一需要注意的是导致无限页数的链接，例如动态生成的日历，包含下一个/上个月/年的链接。