我正在尝试创建一个函数来打开URL并从HTML代码构造一个大纲。大纲应该包含任何...标签之间的文本。基本上只是为了从特定的网页创建一个大纲。每个标题水平也应该正确编号,标题hx具有x级编号。怎么开始?
答案 0 :(得分:0)
html
除了headings
之外,您已链接的beautifulsoup4
中有很多代码。无论如何,这是为了让你开始:
您需要this
个包以及import requests
from bs4 import BeautifulSoup
html = requests.get("http://homepage.cs.uiowa.edu/~lillis/016/2014Summer/assignments/HW12/jazz.html").text
#If you want to parse another url, change the link within get()
soup = BeautifulSoup(html, "lxml")
print soup.body
的请求。 Python为这些操作提供了内置的软件包,但是上面的2个软件包使得这项工作非常容易。
tags
这将打印texts
的{{1}}标记内的所有body
,html
和其他内容。如果你想要一个不同的输出或更具体的东西,请在下面添加评论。我将更改代码。