从网页,python建立一个大纲

时间:2014-07-27 05:01:04

标签: python html

我正在尝试创建一个函数来打开URL并从HTML代码构造一个大纲。大纲应该包含任何...标签之间的文本。基本上只是为了从特定的网页创建一个大纲。每个标题水平也应该正确编号,标题hx具有x级编号。怎么开始?

1 个答案:

答案 0 :(得分:0)

html除了headings之外,您已链接的beautifulsoup4中有很多代码。无论如何,这是为了让你开始:

您需要this个包以及import requests from bs4 import BeautifulSoup html = requests.get("http://homepage.cs.uiowa.edu/~lillis/016/2014Summer/assignments/HW12/jazz.html").text #If you want to parse another url, change the link within get() soup = BeautifulSoup(html, "lxml") print soup.body 的请求。 Python为这些操作提供了内置的软件包,但是上面的2个软件包使得这项工作非常容易。

tags

这将打印texts的{​​{1}}标记内的所有bodyhtml和其他内容。如果你想要一个不同的输出或更具体的东西,请在下面添加评论。我将更改代码。