如何使用网页抓取获取div的内容?
我无法获取具有类名的单个div
的详细信息。
import mechanize
import re
import logging
from BeautifulSoup import BeautifulSoup
br = mechanize.Browser()
br.set_handle_equiv(False)
url = "https://www.abcd.com"
ua = 'Mozilla/5.0 (X11; Linux x86_64; rv:18.0) Gecko/20100101 Firefox/18.0 (compatible;)'
br.addheaders = [('User-Agent', ua), ('Accept', '*/*')]
br.set_debug_http(True)
logging.getLogger('mechanize').setLevel(logging.DEBUG)
html = br.open(url)
soup = BeautifulSoup(html)
for i in soup.findAll('div', 'className'):
print i
答案 0 :(得分:3)
你可以这样使用
soup.findAll('div', {'attribute-name': 'attribute-value'})
例如:
soup.findAll('div', {'class': 'class-name'})
答案 1 :(得分:1)
------顶级代码-----
html = br.open(url)
soup = BeautifulSoup(html)
for i in soup.findAll('div', {"class":"NAME_OF_CLASS"})
print i
这应该对你有帮助。