统计(发生频率%ecc ..)分析txt

时间:2015-04-07 14:39:24

标签: linux bash shell statistics

我无法弄清楚我应该用什么方法来找出:

  • 发生的频率
  • 文件中出现的值

例如我的文件是:

  xxxxx, yyyy , 79
  xxxxx, yyyy , 80
  xxxxx, yyyy , 79
  xxxxx, yyyy , 81
  xxxxx, yyyy , 80

我想知道79有40%的发生像80和81有20%。 我怎样才能做到这一点? (没有R,如果它可能......)

我需要那些因为我想使用gnuplot绘制直方图。你能告诉我如何使用刚刚计算的值绘制一个直方图吗?

1 个答案:

答案 0 :(得分:2)

sort和uniq的某种组合可能会成功。你可以从

开始
cat file  | cut -d ',' -f 3 | sort | uniq --count > file.1

要在gnuplot中绘图,请执行

gnuplot
plot [78:82][0:3] "file.1" using 2:1 with boxes

左括号[78:82]设置xrange,另一个设置yrange。这可以自动确定,但在此演示案例中,短暂查看文件以确定最小值/最大值可以很好地工作。

根据您的操作系统和配置,这可能就足够了。您可能还需要使用set terminalset output。 (启动gnuplot并说帮助,有一个程序内帮助)