我的项目是从HTML页面中获取所有<a>
元素以进行进一步处理。
我有一个与我想要的匹配的正则表达式,但我不能让PowerShell去除除此之外的一切。
我的正则表达式:
<a class="intranetlinktemplate".*?<\/a>
我试过了:
$x = (Get-Content $file | Out-String).Trim()
$x.Substring($x.IndexOf('<a class="intranetlinktemplate"',0)) |
Set-Content trash.txt
$x = (Get-Content trash.txt | Out-String).Trim()
$x -replace ('</a>.*?<a class="intranetlinktemplate"','<\/a>!!!!!<a class="intranetlinktemplate"') |
Set-Content trash.txt
但它只留下了很多杂项HTML。
如何编辑文件以便仅匹配的字符串保留?