c# - 下载html源代码时不需要的<img/>转换

下载html源代码时不需要的<img/>转换

时间：2015-12-23 16:43:28

标签： c# html

我想下载带有扫描文本图片的.html页面，就像我可以通过以下方式下载它一样：

浏览器 - ＆gt;右键单击 - ＆gt;将页面另存为...使用C＃。

我尝试了3种不同的方法：
1.和2.从这里： How can I download HTML source in C#
3.从这里： Get HTML code from website in C#

我尝试按照此处的建议保存文件：
Creating a file (.htm) in C#或使用
System.IO.File.WriteAllText(@"C:xy.html", htmlSourceString);

我的问题是，当我打开下载的文件时，图像上的文本会自动提取到html段落中，图像会丢失。

如何禁用此转换选项？

的更新
谢谢您的回复！现在我知道我必须单独下载图像。

但我仍然很好奇：为什么这种转变正在发生？
我制作了一张照片来展示我正在谈论的内容。 click for the pic

1 个答案:

答案 0 :(得分：0)

保存html后，您将不得不解析它。 http://www.codeplex.com/htmlagilitypack是一个很好的HTML解析解析器。我自己多次使用它。
然后使用解析器，您将找到所有<img>个节点并获取它们各自的src属性。这些属性将包含绝对或相对URL。如果它们是绝对的，那很容易。您可以使用它们来下载图像。如果它们是相对的，你将不得不找到使它们成为绝对的部分，并将所有网址加上前缀。此时，您可以再次下载所有图像。