Question

假设我们有这个链接：CBC Site Map

我希望得到这个页面上的所有文字，如艺术，书籍等。我怎么能用Python3做到这一点？

Answer 1

网址中的所有字词？

import requests
with requests.Session() as c:
    page = c.get('http://www.cbc.ca/sitemap/')
    print (page.content)

或者，也许这就是你想要的。

from bs4 import BeautifulSoup
import urllib.request

resp = urllib.request.urlopen("http://www.cbc.ca/sitemap/")
soup = BeautifulSoup(resp, from_encoding=resp.info().get_param('charset'))

for link in soup.find_all('a', href=True):
    print(link['href'])

如何获取网页中的所有单词 - Python3

1 个答案: