我想从一个网站检索文章和其他内容。 我得到了爬虫的想法,并假设我可以根据一些正则表达式左右打开远程页面并获取文本部分。 我想知道的是我不仅可以通过单个页面(或分页)搜索整个网站,而且不必逐个运行每个元素的爬虫,并且不会忘记过程中的任何现有URL。
请注意,我不需要这个是干净的,因为它是一次性的事情。 我签订合同的网络代理商希望向我收取大量资金用于转储我自己的数据库而且无法绕过它,所以我必须找到一个快速的解决方法。 为了让我入手,你能指导我吗?
谢谢。
答案 0 :(得分:0)
您可以通过站点地图确定其网站上的网页,但这不是最可靠的解决方案,因为这些网页可能不在其网站地图上。 IMO最好的方式是使用递归函数来收集数据,从主页开始,使用检索到的数据上的正则表达式查找所有站点特定的链接,直到您尽可能多地抓取链接。这将具有蜘蛛网效果,并提取大量数据。
我们目前有一个类似的实现,可以从构建严重的API系统中获取大约5,000页的数据。
答案 1 :(得分:0)
如果没有逐站点提取所有链接,就不可能不这样做。即使使用某些第三方脚本,他们也必须至少发送尽可能多的http请求。
最简单的方法是使用wget with -r参数,它将下载整个站点,然后在下载的文件中搜索给定的正则表达式。