应用错误收集

如何在python中蜘蛛密码保护的网站？

时间：2010-07-04 01:39:49

标签： python web-crawler

目前我有一个用Java编写的蜘蛛登录供应商网站并蜘蛛网站。（使用htmlunit）

它保持会话（cookie）甚至让我启用/禁用javascript等。

我还使用htmlparser（java）来帮助解析html并提取相关信息。

python有类似的东西吗？

2 个答案:

答案 0 :(得分：4)

Python有urllib2抓取页面，支持密码身份验证和Cookie。

还有HTMLParser用于提取html，但有些人更喜欢功能更多的BeatifulSoup。

答案 1 :(得分：1)

Scrapy API使用urllib2 plus添加一些不同的解析器和辅助例程。