我需要创建一个脚本来搜索不到一百万个文本,代码等文件,以查找匹配项,然后将特定字符串模式上的所有匹配输出到CSV文件。
到目前为止,我做到了这一点;
$location = 'C:\Work*'
$arr = "foo", "bar" #Where "foo" and "bar" are string patterns I want to search for (separately)
for($i=0;$i -lt $arr.length; $i++) {
Get-ChildItem $location -recurse | select-string -pattern $($arr[$i]) | select-object Path | Export-Csv "C:\Work\Results\$($arr[$i]).txt"
}
这将返回一个名为“foo.txt”的CSV文件,其中包含所有带有“foo”字样的文件列表,以及一个名为“bar.txt”的文件,其中包含所有包含“栏”。
有没有人可以想到优化这个脚本以使其更快地工作?或者想法如何制作一个完全不同但相当的脚本才能更快地运行?
所有输入都赞赏!
答案 0 :(得分:2)
让我们假设1)文件不是太大而你可以把它加载到内存中,2)你真的只想要文件的路径,匹配(不是行等)。
我尝试只读取一次文件,然后遍历正则表达式。有一些好处(它比原始解决方案快),但最终结果将取决于其他因素,如文件大小,文件数等。
同时删除'ignorecase'
会使其更快一点。
$res = @{}
$arr | % { $res[$_] = @() }
Get-ChildItem $location -recurse |
? { !$_.PsIsContainer } |
% { $file = $_
$text = [Io.File]::ReadAllText($file.FullName)
$arr |
% { $regex = $_
if ([Regex]::IsMatch($text, $regex, 'ignorecase')) {
$res[$regex] = $file.FullName
}
}
}
$res.GetEnumerator() | % {
$_.Value | Export-Csv "d:\temp\so-res$($_.Key).txt"
}
答案 1 :(得分:2)
如果你的文件不是很大并且可以读入内存,那么这个版本的工作速度应该更快(我的快速和脏的本地测试似乎证明了这一点):
$location = 'C:\ROM'
$arr = "Roman", "Kuzmin"
# remove output files
foreach($test in $arr) {
Remove-Item ".\$test.txt" -ErrorAction 0 -Confirm
}
Get-ChildItem $location -Recurse | .{process{ if (!$_.PSIsContainer) {
# read all text once
$content = [System.IO.File]::ReadAllText($_.FullName)
# test patterns and output paths once
foreach($test in $arr) {
if ($content -match $test) {
$_.FullName >> ".\$test.txt"
}
}
}}}
注意:1)思想改变了示例中的路径和模式; 2)输出文件不是CSV而是纯文本;如果您只对路径感兴趣,那么CSV中没有太多理由 - 每行一个路径的纯文本文件。