根据字符串的特定部分从列表中选择数据

时间:2017-12-20 02:39:59

标签: python web-scraping

非常感谢您帮助我的努力! 我正在尝试我的一些小型刮削项目。我有一个来自网页的链接列表,现在我只想选择与导航产品相关的链接。

我想知道有没有办法从数组中选择所有包含" product"以他们的名义。例如,我希望所有来自网站导航的链接都包含#34; blog"在他们中。

欣赏答案。

1 个答案:

答案 0 :(得分:1)

我建议使用Beautiful Soup library。假设您要抓取的网站存储为html

,您可以执行以下操作
b = BeautifulSoup(html, 'lxml')
links = [i['href'] for i in b.find_all('a') if "blog" in i['href']]

这会在页面上显示每个链接的href标记列表,然后对包含字符串blog的元素的列表进行过滤。