BeautifulSoup请求获取HTML框架,但无法访问元素

时间:2019-01-08 04:33:10

标签: beautifulsoup

目前,我正在使用ubuntu在VRM上运行;因此,我正在尝试从电子商务网站抓取数据作为测试。到目前为止,我已经可以加载HTML内容了。但我无法访问任何标签。我已经通过包含标头检查了其他类似的问题。等等

from requests import get
from bs4 import BeautifulSoup

url = 'https://shopee.com.my/'

headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0'}

response = get(url, headers=headers)
html_soup = BeautifulSoup(response.text, 'html.parser')


def findDiv():
    for container in html_soup.find_all('div'):
        print(container)
        print(container.div)
        #returns None#

print(findDiv())

但是,除了两个div标签(<main><modal>之外,它仍然不会加载其他任何内容 Similar Post

1 个答案:

答案 0 :(得分:1)

对于动态页面,您必须使用 Selenium 或对requests使用Bot用户代理,以检查元素安装Chrome扩展程序以更改用户代理或保存页面源代码

headers = {'User-Agent': 'Googlebot/2.1 (+http://www.google.com/bot.html)'}
response = get(url, headers=headers)