Question

我正在尝试解析位于this website最底部的类似容器之类的框中的内容，但是在页面源中找不到它们的存在。我一直试图创建一个脚本来访问它们。

import requests
from bs4 import BeautifulSoup

url = 'https://www.proxy-list.download/HTTPS'

r = requests.get(url)
soup = BeautifulSoup(r.text,'lxml')
item = soup.select_one("a#btn3").text
print(item)

我得到的输出：

Copy to clipboard

我在这之后：

104.248.115.236:80
104.248.53.46:3128
104.236.248.219:3128
104.248.115.236:3128
104.248.115.236:8080
104.248.184.16:8080

这是该内容在该页面上的可见方式：

Answer 1

尝试使用此链接https://www.proxy-list.download/api/v0/get?l=en&t=https（您可以使用开发工具找到该链接），使它们像我在下面显示的方式一样：

import requests
from bs4 import BeautifulSoup

url = 'https://www.proxy-list.download/api/v0/get?l=en&t=https'

r = requests.get(url)
for item in r.json()[0]['LISTA']:
    proxy = f"{item['IP']}{':'}{item['PORT']}"
    print(proxy)

无法在wbpage的框内获取一些内容

1 个答案: