假设我们有这个链接:CBC Site Map
我希望得到这个页面上的所有文字,如艺术,书籍等。 我怎么能用Python3做到这一点?
答案 0 :(得分:0)
网址中的所有字词?
import requests
with requests.Session() as c:
page = c.get('http://www.cbc.ca/sitemap/')
print (page.content)
或者,也许这就是你想要的。
from bs4 import BeautifulSoup
import urllib.request
resp = urllib.request.urlopen("http://www.cbc.ca/sitemap/")
soup = BeautifulSoup(resp, from_encoding=resp.info().get_param('charset'))
for link in soup.find_all('a', href=True):
print(link['href'])