我有一个网页“ aaaa”,提供了网址“ aaaa1”,aaaa2,...,aaaa100的列表。我需要打开每个链接,并将html代码保存在一个文件夹中。有没有一种方法可以快速打开所有源代码(比打开每个链接并获取源代码然后复制它更好)?
更广泛地说,问题是我无法使用python请求打开aaaa。我有漂亮的汤代码来处理html并从aaaa1,aaa2,...,aaa100源代码中提取所需的信息。除了逐个手动操作外,我无法以其他方式打开它们。我需要继续前进,现在不介意手动进行操作,但是我只是想知道是否有更好的方法来进行手动操作。
预先感谢您的帮助
答案 0 :(得分:0)
我认为没有其他方法可以点击每个链接并获取页面来源。 您可以执行以下操作。
#assuming that your file has each link per line
with open('file_conataining_urls') as file:
links = file.read().split('\n')
for link_no, link in enumerate(links):
f = open(link_no+'.html', 'w')
f.write(str(requests.get(link).content))
f.close()