在本地内容上使用美丽的汤

时间:2017-01-10 03:45:20

标签: python html beautifulsoup

我开始使用wget使用本地链接和镜像选项来抓取页面的研究项目。我当时这样做是为了获取数据,因为我不知道网站有多长时间处于活动状态。所以我有60-70个站点完全镜像了位于目录中的本地化链接。我现在需要从他们那里汲取灵感。

是否有使用beautifulsoup解析这些页面的好例子?我意识到beautifulsoup旨在接受http请求并从那里解析。老实说,我对beautifulsoup还不精通,而且我的编程技巧也不是很棒。现在我有时间投入其中,我想以简单的方式与手动方式相比。

有人能指出一个很好的例子,资源或教程来解析我存储的html吗?对此,我真的非常感激。我是在想这个吗?

2 个答案:

答案 0 :(得分:2)

将BeautifulSoup与本地内容一起使用与Internet内容相同。例如,要将本地html文件读入bs4:

    response = urllib.request.urlopen('file:///Users/Li/Desktop/test.html', timeout=1)
    html = response.read()
    soup = bs4.BeautifulSoup(html, 'html.parser')

关于如何使用bs4处理html,bs4的文档是一个非常好的教程。在大多数情况下,花一天时间阅读它就足以进行基本数据处理。

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

答案 1 :(得分:0)

要解析文档,请将其传递给BeautifulSoup构造函数。您可以传入字符串或打开文件句柄

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")