Question

我想打开一个网站从中下载简历，但是下面的代码试图转到绝对路径而不仅仅是网址：

import webbrowser
soup = BeautifulSoup(webbrowser.open('www.indeed.com/r/Prabhanshu-Pandit/dee64d1418e20069?sp=0'),"lxml")

生成以下错误：

gvfs-open: /home/utkarsh/Documents/Extract_Resume/www.indeed.com/r/Prabhanshu-
Pandit/dee64d1418e20069?sp=0: 
error opening location: Error when getting information for file 
'/home/utkarsh/Documents/Extract_Resume/www.indeed.com/r/Prabhanshu-
Pandit/dee64d1418e20069?sp=0': No such file or directory

显然，它正在取回家庭地址并试图在网上搜索那些不存在的地址。我在这做错了什么？提前致谢

Answer 1

我想你一起混淆了Beautiful Soup和webbrowser的用法。 Web浏览器不需要访问该页面。

来自Documentation

美丽的汤提供了一些简单的方法和Pythonic习语导航，搜索和修改解析树：一个工具包剖析文档并提取您需要的内容。它没有采取编写应用程序的代码很多

使tutorial example适应您的任务以在输出中打印简历

from bs4 import BeautifulSoup
import requests
url = "www.indeed.com/r/Prabhanshu-Pandit/dee64d1418e20069?sp=0"
r  = requests.get("http://" +url)
data = r.text
soup = BeautifulSoup(data, "html.parser")
print soup.find("div", {"id": "resume"})

webbrowser模块用绝对路径搜索url

1 个答案: