我试图从网站收集数据。我有一个包含该网站所有不同扩展名的Excel文件。 F.i. www.example.com/example2。我有一个脚本,成功地从网站中提取HTML,但现在我想自动为所有扩展。但是,当我说:
siteExtension = "example2"
url = ("https://www.example.com/siteExtension")
r = requests.get(url)
而不是:
url = ("https://www.example.com/example2")
r = requests.get(url)
我收到错误代码。你们有什么建议怎么做?提前谢谢!
答案 0 :(得分:5)
您需要将siteExtension
的值连接到url
字符串。你可以通过多种方式实现这一目标,但这里有两个最常见的方法:
url = "https://www.example.com/" + siteExtension
或者,无处不在的形式:
url = "https://www.example.com/{}".format(siteExtension)
答案 1 :(得分:0)
您需要将字符串连接在一起,而不是将siteExtension
作为字符串文字的一部分,如下所示:
siteExtension = "example2"
url = ("https://www.example.com/" + siteExtension)
r = requests.get(url)
答案 2 :(得分:0)
您遇到此错误是因为您没有将siteExtension
变量的值传递给url
,而是传递了siteExtension字符串。
您可以按照以下方式修复:
siteExtension = "example2"
url = ("https://www.example.com/" + siteExtension)
r = requests.get(url)
或者用这种方式:
siteExtension = "example2"
url = ("https://www.example.com/%s" %(siteExtension))
r = requests.get(url)