BeautifulSoup html刮

时间:2013-12-16 12:08:05

标签: python beautifulsoup

我正在尝试从网站上删除文本,到目前为止我编写了以下代码:

import urllib, urllib2, cookielib, re, io, sys
from bs4 import BeautifulSoup

cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

resp = opener.open('http://www.bancuri.net/formular_mail.aspx?ID=3181').read()
soup = BeautifulSoup(resp)
for tr in soup.find_all('p'):
    tds = tr.find_all('justify')
    for x in tds:
        print x

我需要抓的数据是:

Categoria: Bărbaţi şi femei
Bancul: O femeie către un bărbat la o petrecere:
- Dumneata tare semeni cu al treilea soţ al meu.
- Dar de cîte ori aţi fost căsătorită?
- De două ori pînă acum. 

但它工作不正常,我得到以下结果:

C:\Users\admin\Desktop>bancuri.py
C:\Users\admin\Desktop>

关于可能出错的任何想法?

1 个答案:

答案 0 :(得分:1)

我对cookielib及其含义知之甚少,但我只使用模块urllib2检索页面,该模块也会在您的代码中导入。

首先,这个:

resp = urllib2.urlopen('http://www.bancuri.net/formular_mail.aspx?ID=3181').read()

并检索您需要的内容:

>>> soup = BeautifulSoup(resp)
>>> text = soup.find('p').get_text()
>>> print text

Categoria: Bărbaţi şi femei
Bancul:

O femeie către un bărbat la o petrecere:

- Dumneata tare semeni cu al treilea soţ al meu.

- Dar de cîte ori aţi fost căsătorită?

- De două ori pînă acum.