如何遍历网址向量并从每个网址中抓取一些基本标签

时间:2018-12-16 16:57:45

标签: python python-3.x

我试图遍历URL列表并从每个链接中抓取一些数据。这是我的代码。

from bs4 import BeautifulSoup as bs
import webbrowser
import requests

url_list = ['https://corp-intranet.com/admin/graph?dag_id=emm1_daily_legacy',
'https://corp-intranet.com/admin/graph?dag_id=emm1_daily_legacy_history']

for link in url_list:
    File = webbrowser.open(link)
    File = requests.get(link)
    data = File.text
    soup = bs(data, "lxml")
    tspans = soup.find_all("tspan")
    tspans

我认为这已经很接近了,但是对于'tspans'变量我什么也没得到。我没有错误; “ tspans”仅显示[]。

这是公司内部的内部网,所以我无法分享确切的详细信息,但是我认为这只是抓住所有名为“ tspans”的HTML元素并将它们全部写入文本文件或CSV文件的问题。那是我的最终目标。我想将所有内容整理到一个大列表中并将其全部写入文件中。我会很感激这项工作的任何帮助。谢谢!

顺便说一句,我打算使用Selenium登录到需要信誉的网站,但是现在看来,我正在测试的代码允许您在浏览器上打开新的标签页,一切正常,如果您已经登录。这是最佳做法,还是应该使用完整的登录凭据+ Selenium?我只是想使事情保持简单。

0 个答案:

没有答案