我有一堆html文件(5000)。
我的业务要求定义了参考格式,假设它是XXX-YY(年份)-ZZZ。
我希望在所有html文件中,通过以下链接替换此类格式的任何出现:
<a href='~/app/document/XXX-YY(Year)-ZZZ'>XXX-YY(Year)-ZZZ</a>
虽然使用标准的正则表达式取代听起来很“简单”,但实际上我认为该过程可以多次运行更加困难。
我当前的进程将“嵌套”替换以产生如下内容:
<a href='~/app/document/<a href='~/app/document/XXX-YY(Year)-ZZZ>XXX-YY(Year)-ZZZ</a>><a href='~/app/document/XXX-YY(Year)-ZZZ>XXX-YY(Year)-ZZZ</a></a>
我如何实现目标?
PS:性能不是问题(至少在合理的情况下)
答案 0 :(得分:0)
您只需要:HTML Agility Pack
在SO中检查这个:c# html agility pack以及其他许多关于它的问题; - )
这是因为你最好使用一个对HTML树有深刻理解的解析器,而不仅仅是正则表达式或文本解析,这可能会失败,具体取决于具体的标记......