Powershell:如何减少两个阵列的比较时间

时间:2014-10-07 17:21:00

标签: arrays powershell csv arraylist comparison

我目前对PowerShell和编程很新。我正在使用PowerShell开发一个工具,该工具需要两个CSV文件,每行5,000到10,000行和30多个标题。该工具获取这两个文件并根据键(符号)查找匹配的行,并报告相应字段中的差异。

该脚本包含两个参数:要比较的两个CSV文件。以下表示为gcFile1和gcFile2

这些CSV文件不具有相同数量的行或所有相同的符号,但按字母顺序列出。

我能够根据我想要的键匹配字符串,执行比较并正确输出差异。

我的问题是它花了太长时间,我的假设是,因为我使用两个ForEach循环来比较对象,它基本上为每一行执行此操作,使得它比需要的时间长得多。

我正在寻找一种方法,一旦用于使较小的数组每次搜索都可以从后续搜索中删除该行。

非常感谢您的帮助:)

以下是包含ForEach循环的代码片段:

#For each line in the first file
ForEach($line1 in $gcFile1)  
{

    #For Each line in the second file
    ForEach($line2 in $gcFile2)
    {

    #If the symbol from file one is like a symbol from file 2
    If($line1.Split(';').Get(0) -like $line2.Split(';').Get(0))
    {

        $Symbol1 = $line1.Split(';').Get(0)
        $Symbol2 = $line2.Split(';').Get(0)

        for($x=0;$x -lt $headerCount1; $x++)
        {
            If($line1.Split(';').Get($x) -like $line2.Split(';').Get($x))
            {
                $Version1 = $line1.Split(';').Get($x)
                $Version2 = $line2.Split(';').Get($x)

            } else {

                $Version1 = $line1.Split(';').Get($x)
                $Version2 = $line2.Split(';').Get($x)
                $headerName1 = $headerArray1[$x]
                $headerName2 = $headerArray2[$x]

                $bufferLength = 30 - $headerName1.Length
                $pad = " "


                for($y = 0;$y -lt $bufferLength; $y++){

                $pad += " " 

                }

                Write-Host "[$headerName1]$pad[$Version1 / $Version2]" 
                Add-Content $logfileBoth "[$headerName1]$pad[$Version1 / $Version2]"


            }
        }                                                                                                    
    } 
}
}

CSV示例:

Symbol;Validity;AnnualHighDate-Date;AnnualHighDate-Time;AnnualLowDate-Date;AnnualLowDate-    Time;AverageVolume100Day;AverageVolume22Day;Beta;ClosePriceMonth;ClosePriceQuarter;ClosePriceWeek;Clo sePriceYear;HighPriceCalendar;LowPriceCalendar;Mo12RateOfReturn;MovingAverage100Day;MovingAverage14Day;MovingAverage200Day;MovingAverage21Day;MovingAverage50Day;MovingAverage9Day;Volatility20Day;Volatility6Month;YTDRateOfReturn;AverageVolume250;HighDateCalendar;Size;AnnualHighDate;AnnualLowDate;CalcLastUpdate
A;valid;20140122;0;20130904;0;1.81273e+006;1.85068e+006;1.3787;57.16;57.44;57.16;57.19;61.22;51.96;0.2481;56.54;57.68;56.59;56.81;56.92;57.67;0.1804;0.1796;0.0198;2320468;20140122;248;1/22/2014;9/4/2013;9/3/2014
AA;valid;20140723;0;20130904;0;1.52891e+007;1.1017e+007;1.5202;16.61;14.89;16.61;10.63;17.22;9.82;1.2085;14.92;16.49;13.02;16.4;16.11;16.59;0.146;0.2494;0.6011;22428276;20140723;248;7/23/2014;9/4/2013;9/3/2014

例如,我会在文件1中找到符号A,在符号A中搜索文件2,并比较对应于相同标题的列。

所需的结果是带有符号的输出和不同列的列表,版本1和版本2

示例输出:

============================== A ==============================

[Header] [file1.txt / file2.txt]

[AverageVolume100Day]            [1.84354e+006 / 1.81273e+006]
[AverageVolume22Day]             [1.85629e+006 / 1.85068e+006]
[Beta]                           [1.5311 / 1.3787]
[Mo12RateOfReturn]               [0.2484 / 0.2481]
[MovingAverage100Day]            [56.4635 / 56.54]
[MovingAverage14Day]             [57.455 / 57.68]
[MovingAverage200Day]            [56.5412 / 56.59]
[MovingAverage21Day]             [56.7281 / 56.81]
[MovingAverage50Day]             [56.9214 / 56.92]
[MovingAverage9Day]              [57.7011 / 57.67]
[Volatility20Day]                [0.0508 / 0.1804]
[Volatility6Month]               [0.1285 / 0.1796]
[YTDRateOfReturn]                [0.02 / 0.0198]
[AverageVolume250]               [2325140 / 2320468]

============================== AA ==============================

[Header] [file1.txt / file2.txt]

[AverageVolume100Day]            [1.58983e+007 / 1.52891e+007]
[AverageVolume22Day]             [1.11858e+007 / 1.1017e+007]
[Beta]                           [1.6706 / 1.5202]
[LowPriceCalendar]               [9.825 / 9.82]
[Mo12RateOfReturn]               [1.1749 / 1.2085]
[MovingAverage100Day]            [14.8568 / 14.92]
[MovingAverage14Day]             [16.4471 / 16.49]
[MovingAverage200Day]            [12.9426 / 13.02]
[MovingAverage21Day]             [16.3967 / 16.4]
[MovingAverage50Day]             [16.0764 / 16.11]
[MovingAverage9Day]              [16.5478 / 16.59]
[Volatility20Day]                [0.0385 / 0.146]
[Volatility6Month]               [0.178 / 0.2494]
[YTDRateOfReturn]                [0.5767 / 0.6011]
[AverageVolume250]               [22544029 / 22428276]

2 个答案:

答案 0 :(得分:1)

这种问题的典型答案是使用查找表。有很多方法可以创建一个。一般方法如下。

从第一个输入计算每个数据行的哈希值。将哈希值存储在容器中。准备好查找表后,逐行读取第二个文件并以相同的方式计算哈希值。检查查找表是否包含哈希。如果它没有,你得到的行在第一个文件中不存在。如果确实如此,那么你就完全匹配了。

可以通过使用MD5来计算哈希值。将哈希值存储在已排序的列表中,并使用二进制搜索在 O(n log n)中查找匹配项。更简单的替代方法是使用哈希表(也称为关联数组)在窗帘后面进行哈希计算。

在您的情况下,整个数据行的哈希似乎不可行。可能更适合生成仅使用散列来查找相关行以进行进一步处理的查找表。

关于如何创建查找表,请查看another a post

答案 1 :(得分:1)

至少需要PowerShell 3.0才能实现。虽然可以改为支持2.0

$firstData = Import-CSV C:\temp\sample.csv -Delimiter ";" | Group-Object -AsHashTable -AsString -Property Symbol
$secondData = Import-CSV C:\temp\sample2.csv -Delimiter ";" | Group-Object -AsHashTable -AsString -Property Symbol

$firstData.GetEnumerator() | ForEach-Object{
    If ($secondData.ContainsKey($_.Key)){
        $symbol = $_.Key

        [PSCustomObject]@{
            'Symbol' = $symbol
            'AverageVolume100Day' = "$($firstData[$symbol].AverageVolume100Day) / $($secondData[$symbol].AverageVolume100Day)"
            'AverageVolume22Day' = "$($firstData[$symbol].AverageVolume22Day) / $($secondData[$symbol].AverageVolume22Day)" 
        }
    }
}

解决方案不是完全构建的,但足以向您展示我想要做的事情。您可以这样做,以便您感兴趣的所有参数单独存储,而不是像我对AverageVolume100DayAverageVolume22Day所做的那样拼写全部。此外,我没有足够的样本数据来实现这一目标

这样做是将两个数据样本导入CSV并将数据转换为哈希表,其中Name是符号,其余数据是值。

循环遍历每个符号并验证其是否与其他样本数据集匹配。如果找到匹配项,则构建一个自定义对象,该对象具有每个样本数据集中的每个值与数据中的反斜杠相比较。

我从你的输出中省略了Header,因为它重复似乎是重复的:)。我有没有的想法,如果这会更有效但我会考虑尝试一下。

示例输出。

Symbol                      AverageVolume100Day         AverageVolume22Day        
------                      -------------------         ------------------        
AA                          1.52891e+007 / 1.52891e+007 1.1017e+007 / 1.1017e+007 
A                           1.81273e+006 / 1.81573e+006 1.85068e+006 / 1.85368e...

powershell中的输出可能不具有可读性,并且某些列可能会被修改。将此全部发送到Export-CSV将是一种选择。

从评论中更新

这是一个类似的解决方案,具有动态标头的额外好处。我需要稍微处理输出,因为我对它不满意。

$firstData = Import-CSV C:\temp\sample.csv -Delimiter ";" | Group-Object -AsHashTable -AsString -Property Symbol
$secondData = Import-CSV C:\temp\sample2.csv -Delimiter ";" | Group-Object -AsHashTable -AsString -Property Symbol
$propertyNames = @("AverageVolume100Day","AverageVolume22Day","AnnualHighDate-Date")
$properties = @{}


$firstData.GetEnumerator() | ForEach-Object{
    If ($secondData.ContainsKey($_.Key)){
        $symbol = $_.Key

        $properties.Symbol = $symbol
        ForEach($property in $propertyNames) {
            $properties.$property = "$($firstData[$symbol].$property) / $($secondData[$symbol].$property)"
        }
        New-Object Psobject -Property $properties
    }
} | Format-List

使用数组$propertyNames根据需要填写标题。在每个ForEach-Loop周期中构建$properties。当您有许多标题时,Format-List将使输出可读。