我有一个包含多个URL和一些字符串的列表,例如#skipsideNav,#content。我从这些字符串中分离出了网址
if link.startswith('/'):
local_urls.add(link)
elif link.startswith(base_url):
domain_urls.add(link)
elif link.startswith("#"):
ignore_urls.add(link)
else:
foreign_urls.add(link)
但是,以#开头的内容不会以某种方式被忽略并包含在foreign_urls的输出中
for link in dom.xpath('//a/@href'): # select the url in href for all a
tags(links)
if link.startswith('/'):
local_urls.add(link)
elif link.startswith(base_url):
domain_urls.add(link)
elif link.startswith("#"):
ignore_urls.add(link)
else:
foreign_urls.add(link)
print(foreign_urls)
答案 0 :(得分:1)
唯一的可能性似乎是在#前的空白。你检查了吗?