Question

我正在尝试创建一个函数来打开URL并从HTML代码构造一个大纲。大纲应该包含任何...标签之间的文本。基本上只是为了从特定的网页创建一个大纲。每个标题水平也应该正确编号，标题hx具有x级编号。怎么开始？

Answer 1

html除了headings之外，您已链接的beautifulsoup4中有很多代码。无论如何，这是为了让你开始：

您需要this个包以及import requests from bs4 import BeautifulSoup html = requests.get("http://homepage.cs.uiowa.edu/~lillis/016/2014Summer/assignments/HW12/jazz.html").text #If you want to parse another url, change the link within get() soup = BeautifulSoup(html, "lxml") print soup.body的请求。 Python为这些操作提供了内置的软件包，但是上面的2个软件包使得这项工作非常容易。

tags

这将打印texts的{{1}}标记内的所有body，html和其他内容。如果你想要一个不同的输出或更具体的东西，请在下面添加评论。我将更改代码。

从网页，python建立一个大纲

1 个答案: