HTML到文本转换

时间:2010-04-27 00:34:32

标签: html

Internet Explorer可以选择将网页另存为文本文件,并删除所有标记。我需要一种方法来批量处理工作中的项目。或者有任何命令行实用程序或库可以为我做同样的事情?与IE互操作(不是我的第一选择!)?它不必像IE那样格式化,只需给我纯文本。

3 个答案:

答案 0 :(得分:1)

有很多程序可以做到这一点。有些被称为html2text。有this one(本机不适用于Windows,但在Cygwin下编译),而another适用于Win32。

答案 1 :(得分:0)

我曾经看过一个脚本,它使用lynx将HTML呈现为纯文本,以便从HTML自动生成纯文本邮件。不过,这不是我的第一选择。

答案 2 :(得分:0)

您可以使用HTML Agility Pack

在C#中执行此操作
var doc = new HtmlWeb.Load(url);
File.WriteAllText(path, doc.DocumentElement.InnerText);