python - 如何从需要使用python和美丽汤登录的网页中提取文本？

时间：2011-06-02 14:21:24

标签： python urllib2 beautifulsoup

我必须从名为morningstar.com的网站上检索一些文字。要访问该数据，我必须登录。一旦我登录并提供网页的URL，我就会得到普通用户的HTML文本（未登录）。结果我无法接收该信息。任何解决方案？

答案 0 :(得分：3)

BeautifulSoup用于解析html，一旦你已经获取它。您可以使用任何标准的URL提取库来获取html。我更喜欢curl，因为你标记了帖子，python的内置urllib2也运行良好。

如果您说在登录响应后html与未登录的人相同，我会猜测您的登录失败是出于某种原因。如果您使用的是urllib2，您是否确保在首次登录后正确存储cookie，然后在发送数据请求时将此cookie传递给urllib2？

如果您发布了用于发出两个请求的代码（初始登录和尝试获取数据），这将有所帮助。