我正在尝试解析位于this website最底部的类似容器之类的框中的内容,但是在页面源中找不到它们的存在。我一直试图创建一个脚本来访问它们。
import requests
from bs4 import BeautifulSoup
url = 'https://www.proxy-list.download/HTTPS'
r = requests.get(url)
soup = BeautifulSoup(r.text,'lxml')
item = soup.select_one("a#btn3").text
print(item)
我得到的输出:
Copy to clipboard
我在这之后:
104.248.115.236:80
104.248.53.46:3128
104.236.248.219:3128
104.248.115.236:3128
104.248.115.236:8080
104.248.184.16:8080
这是该内容在该页面上的可见方式:
答案 0 :(得分:1)
尝试使用此链接https://www.proxy-list.download/api/v0/get?l=en&t=https
(您可以使用开发工具找到该链接),使它们像我在下面显示的方式一样:
import requests
from bs4 import BeautifulSoup
url = 'https://www.proxy-list.download/api/v0/get?l=en&t=https'
r = requests.get(url)
for item in r.json()[0]['LISTA']:
proxy = f"{item['IP']}{':'}{item['PORT']}"
print(proxy)