HTML DOM基本抓取

时间:2017-02-07 01:15:38

标签: javascript python html web-scraping beautifulsoup

我尝试从检查元素时出现的HTML DOM中获取特定元素,但出于某种原因,这是在查看没有执行javascript的纯HTML代码。有任何想法吗?我与其他人做的唯一不同的是避免403错误的行。

import urllib2
from bs4 import BeautifulSoup as BS

#avoid 403 error
request = urllib2.Request(url, headers={'User-Agent' : "Mozilla/5.0"})

html = urllib2.urlopen(request).read()

soup = BS(html, 'html.parser')

print soup.find('div', {'class' : 'video'})

1 个答案:

答案 0 :(得分:0)

  

这是在查看没有执行javascript的纯HTML代码

你不会通过beautifulsoap解析javascript,你正在获取原始网页而不执行任何脚本。

  

我唯一与其他人不同的是避免403错误的行

Urllib2的默认用户代理字符串为"Python-urllib/_python_version_",您尝试搜索的网站可能正在过滤该用户代理;通过添加firefox的一个,服务器将返回您的网页,就像您从浏览器访问它一样。