如何使用beautifulsoup获取html标签的内容?例如<title>
标签的内容?
我试过了:
from bs4 import BeautifulSoup
url ='http://www.websiteaddress.com'
soup = BeautifulSoup(url)
result = soup.findAll('title')
for each in result:
print(each.get_text())
但什么都没发生。我使用的是python3。
答案 0 :(得分:2)
您需要先获取网站数据。您可以使用urllib.request
模块执行此操作。请注意,HTML文档只有一个标题,因此无需使用find_all()
和循环。
from urllib.request import urlopen
from bs4 import BeautifulSoup
url ='http://www.websiteaddress.com'
data = urlopen(url)
soup = BeautifulSoup(data, 'html.parser')
result = soup.find('title')
print(result.get_text())