如何从<ul>,<li> l ist标签获取数据以废弃数据

时间:2019-05-02 09:05:39

标签: html web-scraping data-extraction

我已经从网页中提取了数据,但是我无法从没有唯一标识符的网页中提取数据

我已经尝试从具有唯一标识符(例如class,span和id)的网页中提取数据,但是当页面没有唯一标识符时该怎么办

--deploy-mode cluster

它实际上显示“无”,预期结果应该是可用链接的列表

1 个答案:

答案 0 :(得分:0)

您可以对a元素中的li标签使用type选择器。以body父标记为例,然后可以通过以下方式获取li个元素子a href s:

import requests
from bs4 import BeautifulSoup

url = 'https://dblp.org/'
page = requests.get(url)
soup = BeautifulSoup(page.text, 'lxml')
links = [item['href'] for item in soup.select('body li a')]
print(links)

如果必须具有父ul标记,则:

body ul li a

尤其值得一提的是,两个脚本标签还包含一个json结构,并根据您的需要提供可用的链接。