Question

这是我写的python中的代码：

from bs4 import BeautifulSoup

url="http://www.thehindu.com/sci-tech/science/iit-bombay-birds-eye-view-and-quantum-biology/article18191268.ece"
htmltext = urllib.urlopen(url).read()
soup = BeautifulSoup(htmltext,"lxml")
webpage_title = soup.find_all('h1', attrs = {"class": "title"})
print webpage_title

这是我得到的输出：

 [<h1 class="title">\nIIT Bombay: Bird\u2019s eye view and quantum biology\n</h1>]

我希望输出为：

IIT Bombay: Bird’s eye view and quantum biology

我希望将此输出存储为字符串，以便我可以将其写入文件。

我不希望标题是unicode。

如果是这样，那么我想要一种方法将unicode转换为ascii字符串。

Answer 1

webpage_title = webpage_title[0].get_text(strip=True)

默认情况下，BS将请求内容读取为utf-8。

如何将给定URL的标题提取为字符串并将其存储在python2.7中的文本文件中

1 个答案: