查找并保存大文本文件中2个特定短语之间的所有单词

时间:2014-12-20 19:20:14

标签: php html c cmd

我不是程序员或者我刚刚发现这个网站适合问我的问题所以请尽量帮助我,就像你正在帮助初学者一样。 (但我知道关于c和php和html的一点点)

这是我的问题

我已经在例如&#34; source.txt&#34;中保存了网页的来源。文件,现在我想找到文本中放在<h4></h4> 之间的所有字词。我需要一个命令来打开&#34; source.txt&#34;然后查找两个短语之间的单词并将每个单词保存在不同的行中,最后将它们保存在例如&#34; result.exe&#34;

例如我有:

<h4>Barton Fink</h4></a>what is your name<br /><h4>Flyer123</h4></a>my name is pimp<br /><h4>mr.jaghi</h4></a>LoL<br />

我希望我的输出为:

Barton Fink

传单123

mr.jaghi

确保它很容易在短代码中手动完成,但在我的情况下它是一个很长的页面,并且有超过数千个这些单词需要被提取

BTW即时通讯使用Windows平台请告诉我如果可能的话使用cmd,或者如果没有告诉我最简单的方法

1 个答案:

答案 0 :(得分:0)

可以如下,在PowerShell中使用正则表达式。

[regex]::Matches((Get-Content source.txt), "<h4>(.+?)</h4>") | foreach{$_.Groups[1].Value} | OUt-File -FilePath "result.txt"