我想用BeautifulSoup
在网页上打印所有链接。我不确定如何将主要网站添加到相对路径中,以获取完整的可点击链接。
from pandas import *
import urllib.request
import re
import time
from bs4 import BeautifulSoup
myURL="http://books.toscrape.com/index.html"
response = urllib.request.urlopen(myURL)
html = response.read()
soup = BeautifulSoup(html, "html.parser")
for link in soup.find_all('a', href=True):
print(link['href'])
仅打印相对路径,我需要打印整个网站,包括主网站。
例如,输出为:
catalogue/category/books_1/index.html
,输出应为:
http://books.toscrape.com/catalogue/category/books_1/index.html 谢谢!!!!!!!