我正在使用BeautifulSoup,并发现尽管代码或连接没有任何变化,它偶尔会花费很长时间来解析页面。有任何想法吗?
from bs4 import BeautifulSoup
from urllib2 import urlopen
#The particular state website:
site = "http://sfbay.craigslist.org/rea/"
html = urlopen(site)
print "Done"
soup = BeautifulSoup(html)
print "Done"
#Get first 100 list of postings:
postings = soup('p')
答案 0 :(得分:0)
如果由于某种原因你想阅读<a>
标签中的文字,你可以这样做。
postings = [x.text for x in soup.find("div", {"class":"content"}).findAll("a", {"class":"hdrlnk"})]
print(str(postings).encode('utf-8'))
这将返回一个长度为100的列表。
答案 1 :(得分:0)
postings = soup('p')
此代码不好。计算机必须检查每一行,以确保p标签在一个接一个。
aTag = soup.findAll('a',class_='result_title hdrlnk')
for link in aTag:
print(link.text)