Python Beautifulsoup get_text()没有获取所有文本

时间:2015-09-19 17:00:03

标签: python html python-2.7 beautifulsoup urllib2

我正在尝试使用beautifulsoup get_text()方法从html标记中获取所有文本。我使用Python 2.7和Beautifulsoup 4.4.0。它适用于大多数时间。但是,此方法有时只能从标记中获取第一段。我无法弄清楚为什么。请参阅以下示例。

from bs4 import BeautifulSoup
import urllib2

job_url = "http://www.indeed.com/viewjob?jk=0f5592c8191a21af"
site = urllib2.urlopen(job_url).read()
soup = BeautifulSoup(site, "html.parser")
text = soup.find("span", {"class": "summary"}).get_text()
print text

我想从这个确实的职位描述中获取所有内容。基本上,我想要获取所有文本。但是,利用上面的代码,我只能得到“请注意,这是一份为期一年的合同。在背景检查和药物测试完成之前,候选人无法开始作业”。为什么我要丢失剩下的文字?如何在不指定子标签的情况下从此标签获取所有文本?

非常感谢。

0 个答案:

没有答案