获取没有定义类的段落的内容

时间:2014-09-09 15:19:38

标签: python beautifulsoup

我正在尝试使用Beautiful Soup从一个充满文本的段落中提取内容,但我得到了标有<P>标记的所有内容。我想要获得的段落内容没有定义类。

以下是我要从中提取数据的网址:http://www.washingtonpost.com/world/middle_east/turkeys-erdogan-to-be-sworn-in-as-president/2014/08/28/7461617c-2e7e-11e4-be9e-60cc44c01e7f_story.html

我尝试的代码是:

import urllib2
from bs4 import BeautifulSoup
target_url = "http://www.washingtonpost.com/world/middle_east/turkeys-erdogan-to-be-   sworn-in-as-president/2014/08/28/7461617c-2e7e-11e4-be9e-60cc44c01e7f_story.html"
data = urllib2.urlopen(target_url).read()
soup = BeautifulSoup(data)
paragraphs = soup.find_all("p")
for p in paragraphs:
    print p

1 个答案:

答案 0 :(得分:3)

该网站使用正确的HTML5代码,使用

article = soup.find('article')
content = article.get_text()