逐步浏览大文件

时间:2013-07-03 21:01:02

标签: shell unix grep

我有几个大型数据文件(~100MB-1GB的文本)和一个数万个时间戳的排序列表,它们索引感兴趣的数据点。时间戳文件如下所示:

12345
15467
67256
182387
199364
...

数据文件如下:

Line of text
12345 0.234 0.123 2.321
More text
Some unimportant data
14509 0.987 0.543 3.600
More text
15467 0.678 0.345 4.431

第二个文件中的数据全部按时间戳顺序排列。我想使用第一个文件的时间戳来浏览第二个文件,在输出文件中打印时间戳和第四个数据项。我一直在用这个:

grep -wf time.stamps data.file | awk '{print $1 "\t" $4 }'  >> output.file

对于每个数据文件,这需要一天的顺序。问题是这个命令搜索整个数据文件中的每一行time.stamps,但我只需要搜索从最后一个数据点获取。有没有办法加快这个过程?

3 个答案:

答案 0 :(得分:4)

您可以在awk ...

中完全执行此操作
awk 'NR==FNR{a[$1]++;next}($1 in a){print $1,$4}' timestampfile datafile

答案 1 :(得分:1)

JS웃的awk解决方案可能就是这样。如果join可用且无关“数据”的第一个字段不是数字,则可以利用文件顺序相同的事实并避免排序步骤。这个例子在linux上使用bash进程替换

join  -o2.1,2.4 -1 1 -2 1 key.txt <(awk '$1 ~ /^[[:digit:]]+$/' data.txt)

答案 2 :(得分:0)

&#39; grep的&#39;有一个小的使用选项-f filename,它从文件名中获取模式并进行匹配。它可能超过awk解决方案,您的时间戳不必排序。