我有一个wordpress网站,其中包含数千个图像文件。问题是,绝大多数都是冗余的,仅占用磁盘空间。我需要一种方法来了解html实际引用了哪些引用,以便删除那些没有引用的引用。
也许Selenium WebDiriver可以帮助您?我可以抓取该网站以获取所有img元素的src属性的值。
使用以下代码,图像集合将填充22个项目-对于特定页面是正确的。问题是,我不知道如何获得“ src”属性的值?
var images = driver.FindElements(By.TagName("img"));
foreach (var image in images)
{
Debug.WriteLine(image.Text);
}
答案 0 :(得分:1)
使用GetAttribute
获取所需的属性,例如:
image.GetAttribute("src")
答案 1 :(得分:1)
GetAttribute
和src
将获得所有图像的url /路径。
var images = driver.FindElements(By.TagName("img"));
foreach (var image in images)
{
Debug.WriteLine(image.GetAttribute("src"));
}
答案 2 :(得分:0)
从硒中获取后,您可以使用Html Agility Pack(HAP)。