我有一个很好的网络抓取工具,可以获取页面上的所有html链接。但是,我不需要额外的链接(相对),只需要绝对值。我尝试了两种不同的方法:
link_set = set()
for link in soup.find_all('a', href = True):
web_links = urljoin(page, link.attrs['href']) #page is defined URL
print(web_links)
link_set.add(web_links)
和
link_set = set()
for link in soup.find_all('a', href = True):
web_links = link.get("href")
print(web_links)
print(urljoin(page, link['href']))
link_set.add(web_links)
我得到错误" TypeError:不能混合str和非str参数。我把urljoin放在错误的地方吗?