我正在尝试编写一个Powershell脚本,该脚本将在HTML文件中的两个HTML标记之间拉出一个字符串。我不知道它的价值是什么,但我知道需要搜索哪些标签。另外,我知道不的标签总是出现在一行的开头(即,它们可以位于一行文本的中间)。最后,我也知道标签和它们之间的字符串永远不会跨越一条线。
我将文件的路径存储在变量
中$filePath = "C:\Path\file.html"
我正在尝试在<h6>
和</h6>
之间找到任何值,并将这些值存储在数组中。
答案 0 :(得分:1)
尝试
$myarray = gc $filepath |
% { [regex]::matches( $_ , '(?<=<h6>\s+)(.*?)(?=\s+</h6>)' ) } |
select -expa value
如果有的话,删除起始和尾随空格。
如果您还需要此空格,请从正则表达式模式中删除\s+