非常感谢您帮助我的努力! 我正在尝试我的一些小型刮削项目。我有一个来自网页的链接列表,现在我只想选择与导航产品相关的链接。
我想知道有没有办法从数组中选择所有包含" product"以他们的名义。例如,我希望所有来自网站导航的链接都包含#34; blog"在他们中。
欣赏答案。
答案 0 :(得分:1)
我建议使用Beautiful Soup library。假设您要抓取的网站存储为html
:
b = BeautifulSoup(html, 'lxml')
links = [i['href'] for i in b.find_all('a') if "blog" in i['href']]
这会在页面上显示每个链接的href
标记列表,然后对包含字符串blog
的元素的列表进行过滤。