我尝试从检查元素时出现的HTML DOM中获取特定元素,但出于某种原因,这是在查看没有执行javascript的纯HTML代码。有任何想法吗?我与其他人做的唯一不同的是避免403错误的行。
import urllib2
from bs4 import BeautifulSoup as BS
#avoid 403 error
request = urllib2.Request(url, headers={'User-Agent' : "Mozilla/5.0"})
html = urllib2.urlopen(request).read()
soup = BS(html, 'html.parser')
print soup.find('div', {'class' : 'video'})
答案 0 :(得分:0)
这是在查看没有执行javascript的纯HTML代码
你不会通过beautifulsoap解析javascript,你正在获取原始网页而不执行任何脚本。
我唯一与其他人不同的是避免403错误的行
Urllib2
的默认用户代理字符串为"Python-urllib/_python_version_"
,您尝试搜索的网站可能正在过滤该用户代理;通过添加firefox的一个,服务器将返回您的网页,就像您从浏览器访问它一样。