我试图解决这个问题。 提取物效果很好但结果是:
" div class =" ppl_product_header"" " H1"记忆4 Gb Dimm 2133 Mts CL15" / h1" " / Div"
但我只需要" h1"和"" h1"" 。即仅文本。
from bs4 import BeautifulSoup
import urllib2
import time
y=0
url ="http://www.grupccccco.com.ar/PROcccO/PcccD_ID=3704444/Distrfffdora.aspx"
html_page = urllib2.urlopen(url)
soup = BeautifulSoup(html_page)
x=soup.find_all('div', class_='ppl_product_header')
print x
print "good bye"
答案 0 :(得分:0)
在您的情况下使用get_text()
- print x.get_text()