有没有办法获取网址的整个HTML代码? 我看到一些PDF的在线转换,但我想知道我是否可以将其转换为HTML。 我可以使用HTML代码并使用它,但我想尝试使用URL做同样的事情。
答案 0 :(得分:0)
如果您想进入代码,请使用Selenium webdriver API
。它将启动一个驱动程序实例,您可以通过该实例启动 URL 并提取页面源。有关详细信息,请访问selenium HQ。用于抓取网页的python代码片段如下所示。
from bs4 import BeautifulSoup
from selenium import webdriver
driver = webdriver.Firefox()
driver.get('http://www.seleniumhq.org')
html = driver.page_source
soup = BeautifulSoup(html)
print soup.find_all("td", class_="td1_normal_class")