我可以在Firefox / Mozilla中打开一个新标签页,抓取内容,然后向文件中写入大量文本,就像这样。
from bs4 import BeautifulSoup
import requests
import urllib.request
import webbrowser
url = 'https://console.cloud.google.com/'
webbrowser.open_new_tab(url)
r=requests.get(url)
data = r.text
print(data)
soup = BeautifulSoup(data, 'html.parser')
file = open('C:\\path_here\\test.txt', 'w')
file.write(data)
file.close()
问题是我只从网站获取一部分文本到文本文件中。如何将所有文本从站点转储到文件?我猜某些内容必须动态生成,否则所有内容都将转储到文本文件中。我可以说网站上有一个JavaScript组件,但是我不确定如何利用它。
答案 0 :(得分:1)
如何使用硒:
from selenium import webdriver
browser = webdriver.Firefox()
browser.get('https://console.cloud.google.com/')
browser.page_source