如何将给定URL的标题提取为字符串并将其存储在python2.7中的文本文件中

时间:2017-04-28 14:52:32

标签: python-2.7 unicode beautifulsoup

这是我写的python中的代码:

from bs4 import BeautifulSoup

url="http://www.thehindu.com/sci-tech/science/iit-bombay-birds-eye-view-and-quantum-biology/article18191268.ece"
htmltext = urllib.urlopen(url).read()
soup = BeautifulSoup(htmltext,"lxml")
webpage_title = soup.find_all('h1', attrs = {"class": "title"})
print webpage_title

这是我得到的输出:

 [<h1 class="title">\nIIT Bombay: Bird\u2019s eye view and quantum biology\n</h1>]

我希望输出为:

IIT Bombay: Bird’s eye view and quantum biology

我希望将此输出存储为字符串,以便我可以将其写入文件。

我不希望标题是unicode。

如果是这样,那么我想要一种方法将unicode转换为ascii字符串。

1 个答案:

答案 0 :(得分:0)

webpage_title = webpage_title[0].get_text(strip=True)

默认情况下,BS将请求内容读取为utf-8