我正在尝试从网站上删除文本,到目前为止我编写了以下代码:
import urllib, urllib2, cookielib, re, io, sys
from bs4 import BeautifulSoup
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
resp = opener.open('http://www.bancuri.net/formular_mail.aspx?ID=3181').read()
soup = BeautifulSoup(resp)
for tr in soup.find_all('p'):
tds = tr.find_all('justify')
for x in tds:
print x
我需要抓的数据是:
Categoria: Bărbaţi şi femei
Bancul: O femeie către un bărbat la o petrecere:
- Dumneata tare semeni cu al treilea soţ al meu.
- Dar de cîte ori aţi fost căsătorită?
- De două ori pînă acum.
但它工作不正常,我得到以下结果:
C:\Users\admin\Desktop>bancuri.py
C:\Users\admin\Desktop>
关于可能出错的任何想法?
答案 0 :(得分:1)
我对cookielib
及其含义知之甚少,但我只使用模块urllib2
检索页面,该模块也会在您的代码中导入。
首先,这个:
resp = urllib2.urlopen('http://www.bancuri.net/formular_mail.aspx?ID=3181').read()
并检索您需要的内容:
>>> soup = BeautifulSoup(resp)
>>> text = soup.find('p').get_text()
>>> print text
Categoria: Bărbaţi şi femei
Bancul:
O femeie către un bărbat la o petrecere:
- Dumneata tare semeni cu al treilea soţ al meu.
- Dar de cîte ori aţi fost căsătorită?
- De două ori pînă acum.