我想从jb hifi中提取spcify信息,这就是我所做的:
from BeautifulSoup import BeautifulSoup
import urllib2
import re
url="http://www.jbhifionline.com.au/support.aspx?post=1&results=10&source=all&bnSearch=Go!&q=ipod&submit=Go"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
Item0=soup.findAll('td',{'class':'check_title'})[0]
print (Item0.renderContents())
输出是:
Apple iPod Classic 160GB (Black)Â
<span class="SKU">MC297ZP/A</span>
我想要的是:
Apple iPod Classic 160GB (Black)
我尝试使用re删除其他信息
print(Item0.renderContents()).replace{^<span:,""}
但它无效
所以我的问题是如何删除无用的信息并获得“Apple ipod classic 160GB(黑色)”
答案 0 :(得分:2)
不要使用.renderContents()
;它充其量只是一个调试工具。
得到第一个孩子:
>>> Item0.contents[0]
u'Apple iPod Classic 160GB (Black)\xc2\xa0\r\n\t\t\t\t\t\t\t\t\t\t\t'
>>> Item0.contents[0].strip()
u'Apple iPod Classic 160GB (Black)\xc2'
似乎BeautifulSoup没有完全猜测编码是否正确,因此非中断空间(U + 00a0)作为两个单独的字节而不是一个存在。貌似BeautifulSoup猜错了:
>>> soup.originalEncoding
'iso-8859-1'
您可以使用响应标头强制进行编码;这个服务器确实设置了字符集:
>>> page.info().getparam('charset')
'utf-8'
>>> page=urllib2.urlopen(url)
>>> soup = BeautifulSoup(page.read(), fromEncoding=page.info().getparam('charset'))
>>> Item0=soup.findAll('td',{'class':'check_title'})[0]
>>> Item0.contents[0].strip()
u'Apple iPod Classic 160GB (Black)'
fromEncoding
参数告诉BeautifulSoup使用UTF-8而不是Latin 1,现在正确剥离了不间断空格。