这是我写的python中的代码:
from bs4 import BeautifulSoup
url="http://www.thehindu.com/sci-tech/science/iit-bombay-birds-eye-view-and-quantum-biology/article18191268.ece"
htmltext = urllib.urlopen(url).read()
soup = BeautifulSoup(htmltext,"lxml")
webpage_title = soup.find_all('h1', attrs = {"class": "title"})
print webpage_title
这是我得到的输出:
[<h1 class="title">\nIIT Bombay: Bird\u2019s eye view and quantum biology\n</h1>]
我希望输出为:
IIT Bombay: Bird’s eye view and quantum biology
我希望将此输出存储为字符串,以便我可以将其写入文件。
我不希望标题是unicode。
如果是这样,那么我想要一种方法将unicode转换为ascii字符串。
答案 0 :(得分:0)
webpage_title = webpage_title[0].get_text(strip=True)
默认情况下,BS将请求内容读取为utf-8
。