Question

目前，我正在使用ubuntu在VRM上运行；因此，我正在尝试从电子商务网站抓取数据作为测试。到目前为止，我已经可以加载HTML内容了。但我无法访问任何标签。我已经通过包含标头检查了其他类似的问题。等等

from requests import get
from bs4 import BeautifulSoup

url = 'https://shopee.com.my/'

headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0'}

response = get(url, headers=headers)
html_soup = BeautifulSoup(response.text, 'html.parser')


def findDiv():
    for container in html_soup.find_all('div'):
        print(container)
        print(container.div)
        #returns None#

print(findDiv())

但是，除了两个div标签（<main>和<modal>之外，它仍然不会加载其他任何内容 Similar Post

Answer 1

对于动态页面，您必须使用 Selenium 或对requests使用Bot用户代理，以检查元素安装Chrome扩展程序以更改用户代理或保存页面源代码

headers = {'User-Agent': 'Googlebot/2.1 (+http://www.google.com/bot.html)'}
response = get(url, headers=headers)

BeautifulSoup请求获取HTML框架，但无法访问元素

1 个答案: