我正在使用bs4从网站获取一些href。
<a class="aaa" target="12345" href="someURL"
data-track="HOT:SR:HotelModule" tabindex="0">
<span class="visuallyhidden">
some text here
</span>
</a>
HTML就像上面那样。 我可以使用以下代码获取大部分URL:
for URL in res.select('.someClass')
URL.select('a')[0]['href']
但是一些返回值是# 我检查了网站的源代码,发现href确实在这里,而不是#。
什么错误让我得到#而不是网址?
这是我正在尝试的the website。 我的问题发生在酒店,带有+ VIP标签。
答案 0 :(得分:0)
也许他们正在使用<a href="#" onclick="myJsFunc();">Link</a>
,你确定没有像这样的href吗?
当使用不同的=解析器给出不同的结果时,会有区别。
尝试使用所有这些并检查结果xml
,html5lib
,html.parser"
Difference between parsers