Question

我已经从网页中提取了数据，但是我无法从没有唯一标识符的网页中提取数据

我已经尝试从具有唯一标识符（例如class，span和id）的网页中提取数据，但是当页面没有唯一标识符时该怎么办

--deploy-mode cluster

它实际上显示“无”，预期结果应该是可用链接的列表

Answer 1

您可以对a元素中的li标签使用type选择器。以body父标记为例，然后可以通过以下方式获取li个元素子a href s：

import requests
from bs4 import BeautifulSoup

url = 'https://dblp.org/'
page = requests.get(url)
soup = BeautifulSoup(page.text, 'lxml')
links = [item['href'] for item in soup.select('body li a')]
print(links)

如果必须具有父ul标记，则：

body ul li a

尤其值得一提的是，两个脚本标签还包含一个json结构，并根据您的需要提供可用的链接。

如何从<ul>，<li> l ist标签获取数据以废弃数据

1 个答案: