Question

有没有办法获取网址的整个HTML代码？我看到一些PDF的在线转换，但我想知道我是否可以将其转换为HTML。我可以使用HTML代码并使用它，但我想尝试使用URL做同样的事情。

Answer 1

如果您想进入代码，请使用Selenium webdriver API。它将启动一个驱动程序实例，您可以通过该实例启动 URL 并提取页面源。有关详细信息，请访问selenium HQ。用于抓取网页的python代码片段如下所示。

from bs4 import BeautifulSoup
from selenium import webdriver

driver = webdriver.Firefox()
driver.get('http://www.seleniumhq.org')

html = driver.page_source
soup = BeautifulSoup(html)

print soup.find_all("td", class_="td1_normal_class")

将URL转换为HTML代码

1 个答案: