Question

序幕：我们被赋予了尽快实施脑跳解释器的任务。为了使这个解释器尽可能快，我们想要为我们的解释器制作一些像[ - ＆lt; +＆gt;]本机的脑力指令。我们想用更多的指令来做这个，所以我们想知道我们应该实现哪些指令。

我们发现了很多关于比较两个单独文件的信息，但有没有办法在文件中找到重复出现的字符串？例如：

文件：

Hi, this is my text
also, it is an example of my question

返回：

2 x ' is '
2 x ' my '
2 x ', '

您知道Windows或Linux中可以执行此操作的任何程序吗？

Answer 1

使用sh，coreutils / sort和awk：

awk 'BEGIN { FS="[,. ;!?]" }  { for (i=1; i<=NF;i++) { A[$i]++ } }  END { for (a in A) { print A[a], a } }' | sort -k1 -n -r

您可以自定义FS变量中的分隔符。