我开始使用wget使用本地链接和镜像选项来抓取页面的研究项目。我当时这样做是为了获取数据,因为我不知道网站有多长时间处于活动状态。所以我有60-70个站点完全镜像了位于目录中的本地化链接。我现在需要从他们那里汲取灵感。
是否有使用beautifulsoup解析这些页面的好例子?我意识到beautifulsoup旨在接受http请求并从那里解析。老实说,我对beautifulsoup还不精通,而且我的编程技巧也不是很棒。现在我有时间投入其中,我想以简单的方式与手动方式相比。
有人能指出一个很好的例子,资源或教程来解析我存储的html吗?对此,我真的非常感激。我是在想这个吗?
答案 0 :(得分:2)
将BeautifulSoup与本地内容一起使用与Internet内容相同。例如,要将本地html文件读入bs4:
response = urllib.request.urlopen('file:///Users/Li/Desktop/test.html', timeout=1)
html = response.read()
soup = bs4.BeautifulSoup(html, 'html.parser')
关于如何使用bs4处理html,bs4的文档是一个非常好的教程。在大多数情况下,花一天时间阅读它就足以进行基本数据处理。
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
答案 1 :(得分:0)
要解析文档,请将其传递给BeautifulSoup构造函数。您可以传入字符串或打开文件句柄:
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("index.html"))
soup = BeautifulSoup("<html>data</html>")