无法将rss解析为html

时间:2017-03-21 13:16:58

标签: python beautifulsoup html-parsing

我正在尝试解析此rss:https://www.mathjobs.org/jobs?joblist-0-----rss

我尝试使用BeautifulSoup,但我无法理解发生了什么。我得到了答案

82
0

当我使用以下脚本时。

import requests
from bs4 import BeautifulSoup

session = requests.session()

response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss')

doc = BeautifulSoup(response.content,'html.parser')

titles = doc.find_all('title')

print( len(titles) )

divs = doc.find_all('div')

据我所知,数据以html格式提供,只有一个标题标签和几个div。这里发生了什么?我使用pyquery获得了类似的结果。

1 个答案:

答案 0 :(得分:2)

在使用mountPage("setting/booking-source", EditBookingSourcePage.class); 之前,您忘记了soup
添加此行 - BeautifulSoup

这是完整的代码。

doc = BeautifulSoup(response.text,'lxml')