目前我有一个用Java编写的蜘蛛登录供应商网站并蜘蛛网站。 (使用htmlunit)
它保持会话(cookie)甚至让我启用/禁用javascript等。
我还使用htmlparser(java)来帮助解析html并提取相关信息。
python有类似的东西吗?
答案 0 :(得分:4)
Python有urllib2抓取页面,支持密码身份验证和Cookie。
还有HTMLParser用于提取html,但有些人更喜欢功能更多的BeatifulSoup。
答案 1 :(得分:1)
Scrapy API使用urllib2 plus添加一些不同的解析器和辅助例程。