如何通过python sgmllib或解析器获取“<div>”和“</div>”之间的内容?

时间:2013-08-13 12:00:15

标签: python html

HTML代码如下:

    <div id="wrap">
    <div id="content">

    <h1>head</h1>
    <ul class="jobpara">
    <li class="floatl"><span>time:</span>2013-08-13</li> 
        <li class="floatl"><span>place:</span>new york</li> 
        <li class="floatl"><span>source </span>www.goole.com</li> 
    </ul>
    </div>
</div>

如何通过Python sgmllib或解析器获取<div></div>之间的内容?

1 个答案:

答案 0 :(得分:0)

from bs4 import BeautifulSoup
import urllib2

url="http://some-website.com/"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())

build_form = {}

for input_field in soup.findAll('input'):
    if input_field['type'] in ('hidden', 'text', 'password', 'submit', 'image'):
        if input_field.has_attr('name'):
            value = ''
            if input_field.has_attr('value'):
                value=input_field['value']
            build_form[input_field['name']] = value

print build_form

这是一个如何使用beautifulsoup为您提供“对象内的数据”或某种类型的所有对象的示例。