目前,我正在使用ubuntu在VRM上运行;因此,我正在尝试从电子商务网站抓取数据作为测试。到目前为止,我已经可以加载HTML内容了。但我无法访问任何标签。我已经通过包含标头检查了其他类似的问题。等等
from requests import get
from bs4 import BeautifulSoup
url = 'https://shopee.com.my/'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0'}
response = get(url, headers=headers)
html_soup = BeautifulSoup(response.text, 'html.parser')
def findDiv():
for container in html_soup.find_all('div'):
print(container)
print(container.div)
#returns None#
print(findDiv())
但是,除了两个div标签(<main>
和<modal>
之外,它仍然不会加载其他任何内容
Similar Post
答案 0 :(得分:1)
对于动态页面,您必须使用 Selenium 或对requests
使用Bot用户代理,以检查元素安装Chrome扩展程序以更改用户代理或保存页面源代码>
headers = {'User-Agent': 'Googlebot/2.1 (+http://www.google.com/bot.html)'}
response = get(url, headers=headers)