如何获取href内的文本? (网络抓取)

时间:2021-07-19 03:12:55

标签: python web-scraping beautifulsoup

我试图从网站上抓取和过滤我想要的所有链接,并将它们放在名为 URL 的列表中,this is the picture of it. 现在我想将 href 中的所有字符串都包含到网站中。

website = 'https://bj.ke.com/ershoufang/chaoyang/'

例如,我希望它像这样循环

https://bj.ke.com/ershoufang/chaoyang/ershoufang/andingmen/

对于我列表中的所有 href

2 个答案:

答案 0 :(得分:0)

您可以通过执行以下操作在列表的所有元素中添加 https://bj.ke.com

CompleteLinks=list(map(lambda x:"https://bj.ke.com"+x["href"],urls))

答案 1 :(得分:0)

您可以使用 href 访问 tag-name[href] 并将基本 URL 与其连接。例如:

print(
    ["https://bj.ke.com/ershoufang/chaoyang" + tag["href"] for tag in urls]
)