Question

所以，我是新手从命令行操作数据，也是regex的初学者。

我在多个子目录中有多个.txt文件。我想要做的是找到所有具有一定数量连续辅音的单词。

到目前为止我尝试的是这样的：

  find . | grep -orhn '[bdfghjklmnprstvxzþ]\{2\}' > ../words.txt

只打印出类似的内容：

  2:rt
  2:gr
  2:xl
  3:gr
  3:st
  3:kk

我想得到整个词，而不仅仅是两个连续的辅音（以及数字和冒号。我不知道它来自哪里，因为它不在原始数据中，但它真的无关紧要我正在努力）。

你有小费吗？

Answer 1

-n选项是文本中的行号。

我的建议是尝试匹配前后字符。

这是我尝试过的，似乎有效。

grep -orh  '\w\+[bdfghjklmnprstvxzþ]\{2\}\w\+'

-o选项仅显示匹配的内容，即整个单词。 -r将以递归的方式呈现，这与此处不相关，因为find正在为您进行递归。