我已经从网页中提取了数据,但是我无法从没有唯一标识符的网页中提取数据
我已经尝试从具有唯一标识符(例如class,span和id)的网页中提取数据,但是当页面没有唯一标识符时该怎么办
--deploy-mode cluster
它实际上显示“无”,预期结果应该是可用链接的列表
答案 0 :(得分:0)
您可以对a
元素中的li
标签使用type选择器。以body
父标记为例,然后可以通过以下方式获取li
个元素子a
href
s:
import requests
from bs4 import BeautifulSoup
url = 'https://dblp.org/'
page = requests.get(url)
soup = BeautifulSoup(page.text, 'lxml')
links = [item['href'] for item in soup.select('body li a')]
print(links)
如果必须具有父ul
标记,则:
body ul li a
尤其值得一提的是,两个脚本标签还包含一个json结构,并根据您的需要提供可用的链接。