使用正则表达式解析HTML

时间:2017-11-15 22:34:41

标签: html regex powershell

我有一个包含此文字的HTML文件:

...
...
...weeks*<br><br><i>If Yes  
, please complete the MYD88 L265P Blood form.<br><br>Optional if the Follow-Up v  
isit date is on or after 9/13/2017 (Amendment #8)<br></i>*Offer1  
...
...

我想删除&lt;br&gt;&lt;/i&gt;之间的所有内容。

我正在尝试这个但是因为搜索需要在多行中执行而无法正常工作

powershell -Command "(gc myFile.XLS) -replace '&lt;br&gt.*&lt;/i&gt;', '' | Out-File myFile1.XLS"

1 个答案:

答案 0 :(得分:0)

这个怎么样?这匹配'i'标签之间的多行内容。

[Regex]::Replace($(Get-Content .\myFile.XLS),'<br>.*<br>|<i>(?:.*\r?\n?)*<\/i>','') > myFile.XLS