Question

如何使用网页抓取获取div的内容？

我无法获取具有类名的单个div的详细信息。

import mechanize
import re
import logging

from BeautifulSoup import BeautifulSoup
    br = mechanize.Browser()
    br.set_handle_equiv(False)
    url = "https://www.abcd.com"
    ua = 'Mozilla/5.0 (X11; Linux x86_64; rv:18.0) Gecko/20100101     Firefox/18.0 (compatible;)'
    br.addheaders =  [('User-Agent', ua), ('Accept', '*/*')]
    br.set_debug_http(True)
    logging.getLogger('mechanize').setLevel(logging.DEBUG)
    html = br.open(url)
    soup = BeautifulSoup(html) 
    for i in soup.findAll('div', 'className'):
        print i

Answer 1

你可以这样使用

soup.findAll('div', {'attribute-name': 'attribute-value'})

例如：

soup.findAll('div', {'class': 'class-name'})

Answer 2

------顶级代码-----

  html = br.open(url)
    soup = BeautifulSoup(html) 
    for i in soup.findAll('div', {"class":"NAME_OF_CLASS"})
        print i

这应该对你有帮助。

如何使用BeautifulSoup获取div的内容？

2 个答案: