我想打开一个网站从中下载简历,但是下面的代码试图转到绝对路径而不仅仅是网址:
import webbrowser
soup = BeautifulSoup(webbrowser.open('www.indeed.com/r/Prabhanshu-Pandit/dee64d1418e20069?sp=0'),"lxml")
生成以下错误:
gvfs-open: /home/utkarsh/Documents/Extract_Resume/www.indeed.com/r/Prabhanshu-
Pandit/dee64d1418e20069?sp=0:
error opening location: Error when getting information for file
'/home/utkarsh/Documents/Extract_Resume/www.indeed.com/r/Prabhanshu-
Pandit/dee64d1418e20069?sp=0': No such file or directory
显然,它正在取回家庭地址并试图在网上搜索那些不存在的地址。我在这做错了什么?提前致谢
答案 0 :(得分:0)
我想你一起混淆了Beautiful Soup和webbrowser的用法。 Web浏览器不需要访问该页面。
美丽的汤提供了一些简单的方法和Pythonic习语 导航,搜索和修改解析树:一个工具包 剖析文档并提取您需要的内容。它没有采取 编写应用程序的代码很多
使tutorial example适应您的任务以在输出中打印简历
from bs4 import BeautifulSoup
import requests
url = "www.indeed.com/r/Prabhanshu-Pandit/dee64d1418e20069?sp=0"
r = requests.get("http://" +url)
data = r.text
soup = BeautifulSoup(data, "html.parser")
print soup.find("div", {"id": "resume"})