Question

我正在尝试解析此rss：https://www.mathjobs.org/jobs?joblist-0-----rss

我尝试使用BeautifulSoup，但我无法理解发生了什么。我得到了答案

82
0

当我使用以下脚本时。

import requests
from bs4 import BeautifulSoup

session = requests.session()

response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss')

doc = BeautifulSoup(response.content,'html.parser')

titles = doc.find_all('title')

print( len(titles) )

divs = doc.find_all('div')

据我所知，数据以html格式提供，只有一个标题标签和几个div。这里发生了什么？我使用pyquery获得了类似的结果。

Answer 1

在使用mountPage("setting/booking-source", EditBookingSourcePage.class);之前，您忘记了soup。
添加此行 - BeautifulSoup

这是完整的代码。

doc = BeautifulSoup(response.text,'lxml')

无法将rss解析为html

1 个答案: