爬行维基百科

时间:2011-09-06 07:06:02

标签: web-scraping web-crawler

我正在使用网站下载器浏览维基百科,我正在查看此工具中的所有选项,以查找在特定时期下载维基百科页面的选项,例如从2005年开始直到现在。

有没有人对在特定时间内抓取网站有任何想法?

4 个答案:

答案 0 :(得分:6)

答案 1 :(得分:4)

尝试Wikipedia API和您的编程技巧。

答案 2 :(得分:2)

不需要进行网页抓取;使用MediaWiki API直接请求您想要的信息。我不确定“特定时期的维基百科页面”是什么意思 - 你的意思是在某个时间最后编辑过吗?如果是这样,在浏览时,我注意到一个API调用,可以让你看看最后的n修订版;只要求最后一次修订,看看它的日期是什么。

答案 3 :(得分:1)

这取决于相关网站是否提供存档,而且大多数情况并非如此,因此无法以直接的方式抓取从特定日期开始的样本。但是您可以在爬虫中实现一些智能来阅读页面创建的日期或类似内容。

但您也可以在http://en.wikipedia.org/w/api.php

查看Wikipedia API