Question

我试图遍历URL列表并从每个链接中抓取一些数据。这是我的代码。

from bs4 import BeautifulSoup as bs
import webbrowser
import requests

url_list = ['https://corp-intranet.com/admin/graph?dag_id=emm1_daily_legacy',
'https://corp-intranet.com/admin/graph?dag_id=emm1_daily_legacy_history']

for link in url_list:
    File = webbrowser.open(link)
    File = requests.get(link)
    data = File.text
    soup = bs(data, "lxml")
    tspans = soup.find_all("tspan")
    tspans

我认为这已经很接近了，但是对于'tspans'变量我什么也没得到。我没有错误； “ tspans”仅显示[]。

这是公司内部的内部网，所以我无法分享确切的详细信息，但是我认为这只是抓住所有名为“ tspans”的HTML元素并将它们全部写入文本文件或CSV文件的问题。那是我的最终目标。我想将所有内容整理到一个大列表中并将其全部写入文件中。我会很感激这项工作的任何帮助。谢谢！

顺便说一句，我打算使用Selenium登录到需要信誉的网站，但是现在看来，我正在测试的代码允许您在浏览器上打开新的标签页，一切正常，如果您已经登录。这是最佳做法，还是应该使用完整的登录凭据+ Selenium？我只是想使事情保持简单。

如何遍历网址向量并从每个网址中抓取一些基本标签

0 个答案: