使用scalaz-stream进行行计数的性能

时间:2013-09-17 14:49:37

标签: performance scala io scalaz scalaz-stream

我已将Functional Programming in Scala第15章开头的命令行计数代码(请参阅linesGt1)翻译为使用scalaz-stream的解决方案(请参阅linesGt2) 。然而linesGt2的表现并不是那么好。命令式代码比我的scalaz-stream解决方案快约30倍。所以我想我做的事情从根本上说是错误的。如何改进scalaz-stream代码的性能?

这是我完整的测试代码:

import scalaz.concurrent.Task
import scalaz.stream._

object Test06 {

val minLines = 400000

def linesGt1(filename: String): Boolean = {
  val src = scala.io.Source.fromFile(filename)
  try {
    var count = 0
    val lines: Iterator[String] = src.getLines
    while (count <= minLines && lines.hasNext) {
      lines.next
      count += 1
    }
    count > minLines
  }
  finally src.close
}

def linesGt2(filename: String): Boolean =
  scalaz.stream.io.linesR(filename)
    .drop(minLines)
    .once
    .as(true)
    .runLastOr(false)
    .run

def time[R](block: => R): R = {
  val t0 = System.nanoTime()
  val result = block
  val t1 = System.nanoTime()
  println("Elapsed time: " + (t1 - t0) / 1e9 + "s")
  result
}

time(linesGt1("/home/frank/test.txt"))        //> Elapsed time: 0.153122057s
                                              //| res0: Boolean = true
time(linesGt2("/home/frank/test.txt"))        //> Elapsed time: 4.738644606s
                                              //| res1: Boolean = true
}

1 个答案:

答案 0 :(得分:2)

在进行性能分析或计时时,可以使用Process.range生成输入,以将实际计算与I / O隔离开来。调整你的例子:

time { Process.range(0,100000).drop(40000).once.as(true).runLastOr(false).run }

当我第一次运行时,我的机器花了大约2.2秒,这看起来与你所看到的一致。经过几次运行,可能是在JIT之后,我一直在64秒左右,原则上,我没有看到任何理由为什么即使使用I / O它也不会那么快(见下面的讨论) 。

在我的非正式测试中,scalaz-stream的每个'step'的开销似乎约为1-2微秒(例如,try Process.range(0,10000)。如果你有一个包含多个阶段的管道,那么每个步骤都是整个流将包含其他几个步骤。考虑减少scalaz-stream开销的方法只是为了确保你在每一步都做足够的工作来使scalaz-stream本身添加的任何开销相形见绌。{{ 3}}。行计数示例是最糟糕的情况,因为您每步几乎不做任何工作而只是计算步骤。

所以我会尝试编写一个版本linesR,每步读取多行,并确保在JIT之后进行测量。