我想创建一个python脚本,作为输入主URL,例如:
https://stackoverflow.com/
然后它在所有页面上进行递归,并制作网站及其子页面的所有页面(节点)的有向图,当且仅当节点a(页面a)到节点b中存在链接时才具有边缘(第b页)。我假设有类似的东西,但我没有在谷歌找到...如果有任何想法,可能使用wget
我还想听别的东西。
答案 0 :(得分:2)
我只会指出使用基本python构建这样一个工具所需的内容:
list
网址中以进行抓取,并且对于您在网页中找到的每个链接,您需要检查是否已经抓取它(以避免无限循环),使用set
或者,您可以使用scrapy,一个用于抓取的python库。