Question

我尝试从检查元素时出现的HTML DOM中获取特定元素，但出于某种原因，这是在查看没有执行javascript的纯HTML代码。有任何想法吗？我与其他人做的唯一不同的是避免403错误的行。

import urllib2
from bs4 import BeautifulSoup as BS

#avoid 403 error
request = urllib2.Request(url, headers={'User-Agent' : "Mozilla/5.0"})

html = urllib2.urlopen(request).read()

soup = BS(html, 'html.parser')

print soup.find('div', {'class' : 'video'})

Answer 1

这是在查看没有执行javascript的纯HTML代码

你不会通过beautifulsoap解析javascript，你正在获取原始网页而不执行任何脚本。

我唯一与其他人不同的是避免403错误的行

Urllib2的默认用户代理字符串为"Python-urllib/_python_version_"，您尝试搜索的网站可能正在过滤该用户代理;通过添加firefox的一个，服务器将返回您的网页，就像您从浏览器访问它一样。

HTML DOM基本抓取

1 个答案: