我必须从名为morningstar.com的网站上检索一些文字。要访问该数据,我必须登录。一旦我登录并提供网页的URL,我就会得到普通用户的HTML文本(未登录)。结果我无法接收该信息。任何解决方案?
答案 0 :(得分:3)
BeautifulSoup用于解析html,一旦你已经获取它。您可以使用任何标准的URL提取库来获取html。我更喜欢curl,因为你标记了帖子,python的内置urllib2也运行良好。
如果您说在登录响应后html与未登录的人相同,我会猜测您的登录失败是出于某种原因。如果您使用的是urllib2,您是否确保在首次登录后正确存储cookie,然后在发送数据请求时将此cookie传递给urllib2?
如果您发布了用于发出两个请求的代码(初始登录和尝试获取数据),这将有所帮助。