寻找特定的文字并转换成链接

时间:2011-12-14 17:22:49

标签: c# html-agility-pack

我有一堆html文件(5000)。

我的业务要求定义了参考格式,假设它是XXX-YY(年份)-ZZZ。

我希望在所有html文件中,通过以下链接替换此类格式的任何出现:

<a href='~/app/document/XXX-YY(Year)-ZZZ'>XXX-YY(Year)-ZZZ</a>

虽然使用标准的正则表达式取代听起来很“简单”,但实际上我认为该过程可以多次运行更加困难。

我当前的进程将“嵌套”替换以产生如下内容:

<a href='~/app/document/<a href='~/app/document/XXX-YY(Year)-ZZZ>XXX-YY(Year)-ZZZ</a>><a href='~/app/document/XXX-YY(Year)-ZZZ>XXX-YY(Year)-ZZZ</a></a>

我如何实现目标?

PS:性能不是问题(至少在合理的情况下)

1 个答案:

答案 0 :(得分:0)

您只需要:HTML Agility Pack

在SO中检查这个:c# html agility pack以及其他许多关于它的问题; - )

这是因为你最好使用一个对HTML树有深刻理解的解析器,而不仅仅是正则表达式或文本解析,这可能会失败,具体取决于具体的标记......