如何获取网页中的所有单词 - Python3

时间:2018-04-22 14:49:33

标签: html python-3.x web-scraping

假设我们有这个链接:CBC Site Map

我希望得到这个页面上的所有文字,如艺术,书籍等。 我怎么能用Python3做到这一点?

1 个答案:

答案 0 :(得分:0)

网址中的所有字词?

import requests
with requests.Session() as c:
    page = c.get('http://www.cbc.ca/sitemap/')
    print (page.content)

或者,也许这就是你想要的。

from bs4 import BeautifulSoup
import urllib.request

resp = urllib.request.urlopen("http://www.cbc.ca/sitemap/")
soup = BeautifulSoup(resp, from_encoding=resp.info().get_param('charset'))

for link in soup.find_all('a', href=True):
    print(link['href'])