Question

我试图解决这个问题。提取物效果很好但结果是：

＆＃34; div class =＆＃34; ppl_product_header＆＃34;＆＃34; ＆＃34; H1＆＃34;记忆4 Gb Dimm 2133 Mts CL15＆＃34; / h1＆＃34; ＆＃34; / Div＆＃34;

但我只需要＆＃34; h1＆＃34;和＆＃34;＆＃34; h1＆＃34;＆＃34; 。即仅文本。

 from bs4 import BeautifulSoup
 import urllib2 
 import time
 y=0
 url ="http://www.grupccccco.com.ar/PROcccO/PcccD_ID=3704444/Distrfffdora.aspx"
 html_page = urllib2.urlopen(url)
 soup = BeautifulSoup(html_page)
 x=soup.find_all('div', class_='ppl_product_header')
 print x

print "good bye"

Answer 1

在您的情况下使用get_text() - print x.get_text()

提取仅类文本

1 个答案: