使用Selenium WebDriver从网站获取所有图像src值

时间:2019-10-13 10:20:25

标签: c# wordpress selenium selenium-webdriver

我有一个wordpress网站,其中包含数千个图像文件。问题是,绝大多数都是冗余的,仅占用磁盘空间。我需要一种方法来了解html实际引用了哪些引用,以便删除那些没有引用的引用。

也许Selenium WebDiriver可以帮助您?我可以抓取该网站以获取所有img元素的src属性的值。

使用以下代码,图像集合将填充22个项目-对于特定页面是正确的。问题是,我不知道如何获得“ src”属性的值?

var images = driver.FindElements(By.TagName("img"));

        foreach (var image in images)
        {
            Debug.WriteLine(image.Text);
        }

3 个答案:

答案 0 :(得分:1)

使用GetAttribute获取所需的属性,例如:

image.GetAttribute("src")

答案 1 :(得分:1)

GetAttributesrc将获得所有图像的url /路径。

var images = driver.FindElements(By.TagName("img"));

        foreach (var image in images)
        {
            Debug.WriteLine(image.GetAttribute("src"));
        }

答案 2 :(得分:0)

从硒中获取后,您可以使用Html Agility Pack(HAP)。

相关问题