webbrowser模块用绝对路径搜索url

时间:2017-08-28 06:05:52

标签: python beautifulsoup python-webbrowser

我想打开一个网站从中下载简历,但是下面的代码试图转到绝对路径而不仅仅是网址:

import webbrowser
soup = BeautifulSoup(webbrowser.open('www.indeed.com/r/Prabhanshu-Pandit/dee64d1418e20069?sp=0'),"lxml")

生成以下错误:

gvfs-open: /home/utkarsh/Documents/Extract_Resume/www.indeed.com/r/Prabhanshu-
Pandit/dee64d1418e20069?sp=0: 
error opening location: Error when getting information for file 
'/home/utkarsh/Documents/Extract_Resume/www.indeed.com/r/Prabhanshu-
Pandit/dee64d1418e20069?sp=0': No such file or directory

显然,它正在取回家庭地址并试图在网上搜索那些不存在的地址。我在这做错了什么?提前致谢

1 个答案:

答案 0 :(得分:0)

我想你一起混淆了Beautiful Soup和webbrowser的用法。 Web浏览器不需要访问该页面。

来自Documentation

  

美丽的汤提供了一些简单的方法和Pythonic习语   导航,搜索和修改解析树:一个工具包   剖析文档并提取您需要的内容。它没有采取   编写应用程序的代码很多

使tutorial example适应您的任务以在输出中打印简历

from bs4 import BeautifulSoup
import requests
url = "www.indeed.com/r/Prabhanshu-Pandit/dee64d1418e20069?sp=0"
r  = requests.get("http://" +url)
data = r.text
soup = BeautifulSoup(data, "html.parser")
print soup.find("div", {"id": "resume"})