从网页打印所有输入

时间:2013-09-05 20:43:00

标签: python mechanize

我尝试创建一个小的autoposter脚本。我需要从网页中查找并打印所有输入。我正在尝试使用mechanize库。

我写了这个剧本:

import urllib  
import cookielib  
import mechanize  

url = "https://www.sito.com/page.html"  

cookie = cookielib.CookieJar()  
browser = mechanize.Browser()  

browser.set_cookiejar(cookie)  
browser.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)  

browser.open(url)  

for f  in browser.forms():  
    print f.name

如何使用mechanize或可能的其他库打印网页中的所有输入?

1 个答案:

答案 0 :(得分:0)

为什么不使用urllib2 + BeautifulSoup

import urllib2
from bs4 import BeautifulSoup

url = "http://sito.com/SitoContact.htm"  # change to whatever your url is

page = urllib2.urlopen(url).read()
soup = BeautifulSoup(page)

for i in soup.find_all('input'):
    print i

仅供参考,由于ssl错误,我无法访问您提供的页面,这就是该示例使用其他网址的原因。

注意,如果您需要填写表单或使用输入执行某些操作,则需要mechanize或类似工具。但是,无论如何,您可以继续使用BeautifulSoup来解析html。另外,请查看Selenium项目。