使用Python(https://mobile.twitter.com/i/bookmarks)提取此页面的源代码

时间:2019-02-15 14:58:41

标签: python python-2.7

如何使用Python(https://mobile.twitter.com/i/bookmarks)提取此页面的源代码!

问题是实际的页面代码没有出现

import mechanicalsoup as ms
Browser = ms.StatefulBrowser()

Browser.open("https://mobile.twitter.com/login")
Browser.select_form('form[action="/sessions"]')
Browser["session[username_or_email]"] = 'email'
Browser["session[password]"] = 'password'
Browser.submit_selected()

Browser.open("https://mobile.twitter.com/i/bookmarks")
html = Browser.get_current_page()
print html

2 个答案:

答案 0 :(得分:1)

使用BeautifulSoup。

from urllib import request
from bs4 import BeautifulSoup


url_1 = "http://www.google.com"
page = request.urlopen(url_1)
soup = BeautifulSoup(page)
print(soup.prettify())

从此答案开始:

https://stackoverflow.com/a/43290890/11034096

答案 1 :(得分:0)

编辑: 看来问题在于Twitter试图使用JS重定向来加载下一页。机械汤不支持JS,因此您需要尝试硒。


您返回的html变量实际上是BeautifulSoup对象,而不是文本HTML。我会尝试使用:

print(html.text())

查看是否可以直接打印HTML。

或者,从BeautifulSoup文档中,您应该可以使用non-pretty printing of

str(html)

unicode(html.a)