下载html源代码时不需要的<img/>转换

时间:2015-12-23 16:43:28

标签: c# html

我想下载带有扫描文本图片的.html页面,就像我可以通过以下方式下载它一样:

浏览器 - &gt;右键单击 - &gt;将页面另存为...使用C#。

我尝试了3种不同的方法:
1.和2.从这里: How can I download HTML source in C#
3.从这里: Get HTML code from website in C#

我尝试按照此处的建议保存文件:
Creating a file (.htm) in C#或使用
System.IO.File.WriteAllText(@"C:xy.html", htmlSourceString);

我的问题是,当我打开下载的文件时,图像上的文本会自动提取到html段落中,图像会丢失。

如何禁用此转换选项?

更新
谢谢您的回复!现在我知道我必须单独下载图像。

但我仍然很好奇:为什么这种转变正在发生?
我制作了一张照片来展示我正在谈论的内容。 click for the pic

1 个答案:

答案 0 :(得分:0)

保存html后,您将不得不解析它。 http://www.codeplex.com/htmlagilitypack是一个很好的HTML解析解析器。我自己多次使用它。
然后使用解析器,您将找到所有<img>个节点并获取它们各自的src属性。这些属性将包含绝对或相对URL。如果它们是绝对的,那很容易。您可以使用它们来下载图像。如果它们是相对的,你将不得不找到使它们成为绝对的部分,并将所有网址加上前缀。此时,您可以再次下载所有图像。