应用错误收集

从具有特定正则表达式的巨大重复文件中提取特定行

时间：2014-11-19 08:56:21

标签： regex linux awk

我有一个这种格式的大文件：

Sequence

xxxxx 12  161
xxxxx 54  148
Sequence

hhhhh 4   110
gsgsgs 8   88
Sequence

jjjjj 1   45
skskkak 5  8

依旧...... 我只想要一个带有“序列”之后的第一个完整行的文件（请注意，在该单词后面有一个空格）。那就是：

xxxxx 12  161
hhhhh 4   110
jjjjj 1   45

请帮忙吗？我想用awk做的，但我不经常使用，所以我有点迷失正则表达式...

4 个答案:

答案 0 :(得分：1)

Sed 解决方案就像

$ sed -n '/Sequence/{n;n;p}' test
xxxxx 12  161
hhhhh 4   110
jjjjj 1   45

如果您想要 awk ，可以尝试

$ awk '/Sequence/{getline; getline; print}' test
xxxxx 12  161
hhhhh 4   110
jjjjj 1   45

或

短得多

awk '/Sequence/{x=NR+2}NR==x'

感谢Jidder的建议

答案 1 :(得分：1)

您可以使用'^(?=Sequence).*\n+^$\n+\K(^.*$)'模式来匹配这些文字。

$ grep -Pzo '^(?=Sequence).*\n+^$\n+\K(^.*$)' file.txt xxxxx 12 161 hhhhh 4 110 jjjjj 1 45

此处\K导致前面的模式匹配而不打印它。

您可以实时查看here

答案 2 :(得分：0)

您可以在awk
中将变量用作标记
awk '/Sequence/{f=1;next}f==1&&NF>0{f=0;print}'

在与/Sequence/{f=1;next}设置标记/Sequence/相匹配的行上
f并跳到下一行
第一个非空行未设置标记f==1&&NR>0{f=0;print}上的
f并打印行

答案 3 :(得分：-1)

sequence\s*([a-zA-Z0-9 ]+)

您可以使用grep -P尝试此操作。请参阅demo.grab捕获。

http://regex101.com/r/lZ5mN8/30

相关问题

从文本中提取特定单词

从行/文件中提取所有匹配的模式

从巨大的文件中读取特定的行*快*

从文件中提取特定序列

如何从python中的输入巨大文件中解析/提取特定值？

从具有特定正则表达式的巨大重复文件中提取特定行

如何从庞大的数据文件中提取特定行？

从文本文件中提取特定单词？

从日志文件中提取特定值

如何从大型文件中提取具有重复数据块的多个模式？

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？