Question

我正在使用BeautifulSoup，并发现尽管代码或连接没有任何变化，它偶尔会花费很长时间来解析页面。有任何想法吗？

from bs4 import BeautifulSoup   
from urllib2 import urlopen               
#The particular state website:
site = "http://sfbay.craigslist.org/rea/"
html = urlopen(site)                     
print "Done"
soup = BeautifulSoup(html)                
print "Done"

#Get first 100 list of postings:
postings = soup('p')

Answer 1

如果由于某种原因你想阅读<a>标签中的文字，你可以这样做。

postings = [x.text for x in soup.find("div", {"class":"content"}).findAll("a", {"class":"hdrlnk"})]
print(str(postings).encode('utf-8'))

这将返回一个长度为100的列表。

Answer 2

postings = soup('p')

此代码不好。计算机必须检查每一行，以确保p标签在一个接一个。

aTag = soup.findAll('a',class_='result_title hdrlnk')
for link in aTag:
    print(link.text)

BeautifulSoup结冰

2 个答案: