我试图遍历URL列表并从每个链接中抓取一些数据。这是我的代码。
from bs4 import BeautifulSoup as bs
import webbrowser
import requests
url_list = ['https://corp-intranet.com/admin/graph?dag_id=emm1_daily_legacy',
'https://corp-intranet.com/admin/graph?dag_id=emm1_daily_legacy_history']
for link in url_list:
File = webbrowser.open(link)
File = requests.get(link)
data = File.text
soup = bs(data, "lxml")
tspans = soup.find_all("tspan")
tspans
我认为这已经很接近了,但是对于'tspans'变量我什么也没得到。我没有错误; “ tspans”仅显示[]。
这是公司内部的内部网,所以我无法分享确切的详细信息,但是我认为这只是抓住所有名为“ tspans”的HTML元素并将它们全部写入文本文件或CSV文件的问题。那是我的最终目标。我想将所有内容整理到一个大列表中并将其全部写入文件中。我会很感激这项工作的任何帮助。谢谢!
顺便说一句,我打算使用Selenium登录到需要信誉的网站,但是现在看来,我正在测试的代码允许您在浏览器上打开新的标签页,一切正常,如果您已经登录。这是最佳做法,还是应该使用完整的登录凭据+ Selenium?我只是想使事情保持简单。