使用perl将html转换为文本

时间:2012-01-11 19:45:33

标签: perl cpan

我有一堆html文件,需要使用perl将它们转换并格式化为文本,例如<br/>之类的内容将被\n

我在cpan html :: formattext上找到了这个perl模块,它可以很好地格式化文本,但是如果有链接它会删除它, 是否有HTML::FormatText的任何选项来格式化html,而不是格式化 有像这样的链接

<a href="http://www.microsoft.com>http://www.microsoft.com</a>

就像这样:

<br /><b>Microsoft</b><br /><a href="http://www.microsoft.com>`

将转换为:

microsoft
http://www.microsoft.com

1 个答案:

答案 0 :(得分:7)

查看HTML::FormatText::WithLinks

after_link选项设置为“(%l)”会将链接放在锚文本后面。在您的示例中,您将获得Microsoft (http://www.microsoft.com)