Question

我正在尝试从网站上删除文本，到目前为止我编写了以下代码：

import urllib, urllib2, cookielib, re, io, sys
from bs4 import BeautifulSoup

cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

resp = opener.open('http://www.bancuri.net/formular_mail.aspx?ID=3181').read()
soup = BeautifulSoup(resp)
for tr in soup.find_all('p'):
    tds = tr.find_all('justify')
    for x in tds:
        print x

我需要抓的数据是：

Categoria: Bărbaţi şi femei
Bancul: O femeie către un bărbat la o petrecere:
- Dumneata tare semeni cu al treilea soţ al meu.
- Dar de cîte ori aţi fost căsătorită?
- De două ori pînă acum.

但它工作不正常，我得到以下结果：

C:\Users\admin\Desktop>bancuri.py
C:\Users\admin\Desktop>

关于可能出错的任何想法？

Answer 1

我对cookielib及其含义知之甚少，但我只使用模块urllib2检索页面，该模块也会在您的代码中导入。

首先，这个：

resp = urllib2.urlopen('http://www.bancuri.net/formular_mail.aspx?ID=3181').read()

并检索您需要的内容：

>>> soup = BeautifulSoup(resp)
>>> text = soup.find('p').get_text()
>>> print text

Categoria: Bărbaţi şi femei
Bancul:

O femeie către un bărbat la o petrecere:

- Dumneata tare semeni cu al treilea soţ al meu.

- Dar de cîte ori aţi fost căsătorită?

- De două ori pînă acum.

BeautifulSoup html刮

1 个答案: