Question

我开始使用wget使用本地链接和镜像选项来抓取页面的研究项目。我当时这样做是为了获取数据，因为我不知道网站有多长时间处于活动状态。所以我有60-70个站点完全镜像了位于目录中的本地化链接。我现在需要从他们那里汲取灵感。

是否有使用beautifulsoup解析这些页面的好例子？我意识到beautifulsoup旨在接受http请求并从那里解析。老实说，我对beautifulsoup还不精通，而且我的编程技巧也不是很棒。现在我有时间投入其中，我想以简单的方式与手动方式相比。

有人能指出一个很好的例子，资源或教程来解析我存储的html吗？对此，我真的非常感激。我是在想这个吗？

Answer 1

将BeautifulSoup与本地内容一起使用与Internet内容相同。例如，要将本地html文件读入bs4：

    response = urllib.request.urlopen('file:///Users/Li/Desktop/test.html', timeout=1)
    html = response.read()
    soup = bs4.BeautifulSoup(html, 'html.parser')

关于如何使用bs4处理html，bs4的文档是一个非常好的教程。在大多数情况下，花一天时间阅读它就足以进行基本数据处理。

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Answer 2

要解析文档，请将其传递给BeautifulSoup构造函数。您可以传入字符串或打开文件句柄：

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

在本地内容上使用美丽的汤

2 个答案: