学习Python从网站中提取数据

时间:2018-05-23 19:16:33

标签: python-3.x

我正在尝试编写一个脚本,以便从导出到Excel的内部网站获取数据,将数据分成更小的部分并通过电子邮件发送给技术人员。 (公制数据)我试图使用robobrowser进入网站但我不断得到这个:

C:\用户\用户\应用程序数据\本地\程序\的Python \ Python36-32 \ Aging.py 回溯(最近一次调用最后一次):

文件“C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python36-32 \ Aging.py”,第3行,in     来自robobrowser导入RoboBrowser

文件“C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python36-32 \ lib \ site-packages \ robobrowser-0.5.3-py3.6.egg \ robobrowser__init __。py”,第3行,在     来自.browser import RoboBrowser

文件“C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python36-32 \ lib \ site-packages \ robobrowser-0.5.3-py3.6.egg \ robobrowser \ browser.py”,line 7,在     来自bs4 import BeautifulSoup

文件“C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python36-32 \ lib \ site-packages \ bs4__init __。py”,第30行,在     来自.builder导入builder_registry,ParserRejectedMarkup

文件“C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python36-32 \ lib \ site-packages \ bs4 \ builder__init __。py”,第308行,     来自。 import _htmlparser

文件“C:\ Users \ user \ AppData \ Local \ Programs \ Python \ Python36-32 \ lib \ site-packages \ bs4 \ builder_htmlparser.py”,第7行,in     来自html.parser import( ImportError:无法导入名称'HTMLParseError'

以下是代码:

import webbrowser
import re
from robobrowser import RoboBrowser

#Set BR module
br = RoboBrowser()

#open a website
br.open("https://www.whatever.com")

form = br.get_form()
form ['username'] = "username"
form ['password'] = "password"
br.submit_form(form)

任何帮助都将不胜感激。

1 个答案:

答案 0 :(得分:0)

您应该尝试重新安装RoboBrowser和BeautifulSoup。发生了什么事情,当你import robobrowser时,RoboBrowser然后尝试import BeautifulSoup(一个python模块)然后尝试import _htmlparser(一个python模块,它是BeautifulSoup包的一部分),但它找不到该文件,加载失败。

这很可能是由于文件丢失或损坏(或者可能是过期版本)造成的。如果您重新安装BeautifulSoup(可能robobrowser以确保安全),则应该解决问题。