在1个文件中查找最常重复的字符串

时间:2017-10-27 10:17:22

标签: linux windows

序幕: 我们被赋予了尽快实施脑跳解释器的任务。为了使这个解释器尽可能快,我们想要为我们的解释器制作一些像[ - < +>]本机的脑力指令。我们想用更多的指令来做这个,所以我们想知道我们应该实现哪些指令。

我们发现了很多关于比较两个单独文件的信息,但有没有办法在文件中找到重复出现的字符串?例如:

文件:

Hi, this is my text
also, it is an example of my question

返回:

2 x ' is '
2 x ' my '
2 x ', '

您知道Windows或Linux中可以执行此操作的任何程序吗?

1 个答案:

答案 0 :(得分:0)

使用sh,coreutils / sort和awk:

awk 'BEGIN { FS="[,. ;!?]" }  { for (i=1; i<=NF;i++) { A[$i]++ } }  END { for (a in A) { print A[a], a } }' | sort -k1 -n -r

您可以自定义FS变量中的分隔符。