无法在wbpage的框内获取一些内容

时间:2019-07-19 19:54:18

标签: python python-3.x web-scraping

我正在尝试解析位于this website最底部的类似容器之类的框中的内容,但是在页面源中找不到它们的存在。我一直试图创建一个脚本来访问它们。

import requests
from bs4 import BeautifulSoup

url = 'https://www.proxy-list.download/HTTPS'

r = requests.get(url)
soup = BeautifulSoup(r.text,'lxml')
item = soup.select_one("a#btn3").text
print(item)

我得到的输出:

Copy to clipboard

我在这之后:

104.248.115.236:80
104.248.53.46:3128
104.236.248.219:3128
104.248.115.236:3128
104.248.115.236:8080
104.248.184.16:8080

这是该内容在该页面上的可见方式:

enter image description here

1 个答案:

答案 0 :(得分:1)

尝试使用此链接https://www.proxy-list.download/api/v0/get?l=en&t=https(您可以使用开发工具找到该链接),使它们像我在下面显示的方式一样:

import requests
from bs4 import BeautifulSoup

url = 'https://www.proxy-list.download/api/v0/get?l=en&t=https'

r = requests.get(url)
for item in r.json()[0]['LISTA']:
    proxy = f"{item['IP']}{':'}{item['PORT']}"
    print(proxy)