很抱歉,如果这不是一个有效的问题,我个人觉得这样的边缘人物。
假设所涉及的网站已获得完全许可 如何使用python数据scraper下载该网站的整个内容(html)。根据整个内容,我不仅指您所在的当前页面,还指从该主网站分支出来的任何其他目录。例如
使用链接:
我可以从中获取信息:
以及附加到" https://www.dogs.com/"的任何其他目录 (我不知道dog.com是不是真正的网站,只是一个例子)
我已经制作了一个刮刀,它将从某个链接中提取信息(仅此而已),但我想进一步改进它,所以我不必拥有大量的链接。我知道我可以使用API,但如果这是可能的,我宁愿这样做。干杯!
答案 0 :(得分:1)
虽然scrapy
专业地执行此操作,但您可以使用requests
获取url
数据,使用bs4
来解析html
并查看进去。我猜这对初学者来说也比较容易。
无论如何,你需要有一个起点,然后你只需按照页面中的链接,然后在这些页面中链接。
您可能需要检查url
是否链接到其他网站或是否仍在目标网站中。逐个查找页面并scrape
。