我有a python script会抓取页面,使用jinja2模板引擎输出适当的HTML,我最终最终开始工作,这要归功于您和The Coding Den Discord的同仁。
我希望自动执行文件顶部的.get请求。
我有成千上万个要运行此脚本的URL。有什么好的方法可以解决这个问题?我尝试使用URL数组,但是requests
对此表示拒绝。它抱怨必须是一个字符串。因此,似乎每次都需要遍历compiledUrls
变量。对此问题的任何建议将不胜感激。
答案 0 :(得分:1)
使用网址构建文本文件。
urls.txt
https://www.perfectimprints.com/custom-promos/20267/Pizza-Cutters1.html
https://www.perfectimprints.com/custom-promos/20267/Pizza-Cutters2.html
https://www.perfectimprints.com/custom-promos/20267/Pizza-Cutters3.html
https://www.perfectimprints.com/custom-promos/20267/Pizza-Cutters4.html
https://www.perfectimprints.com/custom-promos/20267/Pizza-Cutters5.html
获取网址并进行处理:
with open("urls.txt") as file:
for single_url in file:
url = requests.get(single_url.strip())
..... # your code continue here