Question

我很好奇。

我想检查哪个功能更快，所以我创建了一些代码并且我执行了很多次。

public static void main(String[] args) {

        long ts;
        String c = "sgfrt34tdfg34";

        ts = System.currentTimeMillis();
        for (int k = 0; k < 10000000; k++) {
            c.getBytes();
        }
        System.out.println("t1->" + (System.currentTimeMillis() - ts));

        ts = System.currentTimeMillis();
        for (int i = 0; i < 10000000; i++) {
            Bytes.toBytes(c);
        }
        System.out.println("t2->" + (System.currentTimeMillis() - ts));

    }

“第二个”循环更快，所以，我认为hadoop的Bytes类比String类的函数更快。然后，我改变了循环的顺序，然后c.getBytes（）变得更快。我执行了很多次，我的结论是，我不知道为什么，但是在第一个代码执行后我的VM中发生了一些事情，以便第二个循环的结果变得更快。

Answer 1

这是一个经典的Java基准测试问题。 Hotspot / JIT / etc会在您使用它时编译您的代码，因此在运行期间它会变得更快。

首先在循环中运行至少3000次（在服务器上或在64位上） - 然后进行测量。

Answer 2

您知道出现了问题，因为Bytes.toBytes在内部调用了c.getBytes：

public static byte[] toBytes(String s) {
    try {
        return s.getBytes(HConstants.UTF8_ENCODING);
    } catch (UnsupportedEncodingException e) {
        LOG.error("UTF-8 not supported?", e);
        return null;
    }
}

来源取自here。这告诉你，呼叫不可能比直接呼叫更快 - 在最好的情况下（即如果它被内联）它将具有相同的时间。但是，一般情况下，由于调用函数的开销很小，所以你会期望它稍慢一些。

这是在解释的垃圾收集环境中使用微型基准测试的经典问题，其中组件在任意时间运行，例如垃圾收集器。最重要的是，有一些硬件优化，如缓存，扭曲图片。因此，查看正在发生的事情的最佳方式通常是查看来源。

Answer 3

“第二”循环更快，所以，

当您执行方法至少10000次时，它会触发整个方法进行编译。这意味着你的第二个循环可以是

更快，因为它是在第一次运行时编译的。
较慢，因为在优化时它没有关于代码执行方式的良好信息/计数器。

最好的解决方案是将每个循环放在一个单独的方法中，这样一个循环不会优化另一个循环并运行几次，忽略第一次运行。

e.g。

for(int i = 0; i < 3; i++) {
    long time1 = doTest1();  // timed using System.nanoTime();
    long time2 = doTest2();
    System.out.printf("Test1 took %,d on average, Test2 took %,d on average%n",
        time1/RUNS, time2/RUNS);
}

Answer 4

最有可能的是，代码在第一个循环运行时仍在编译或尚未编译。

将整个方法包装在外部循环中，这样您就可以运行几次基准测试，并且您应该看到更稳定的结果。

阅读：Dynamic compilation and performance measurement。

Answer 5

可能就是你通过调用getBytes（）为对象分配了这么多空间，JVM垃圾收集器启动并清理未使用的引用（带出垃圾）。

Answer 6

几点观察

正如上面@dasblinkenlight指出的那样，Hadoop的Bytes.toBytes(c);在内部调用String.getBytes("UTF-8")

将字符集作为输入的变体方法String.getBytes()比不接受任何字符集的更快。因此，对于给定字符串，getBytes("UTF-8")将比getBytes()更快。我在我的机器上测试了这个（Windows8，JDK 7）。使用getBytes("UTF-8")和其他getBytes()按顺序运行两个循环，并进行相等的迭代。

    long ts;
    String c = "sgfrt34tdfg34";

    ts = System.currentTimeMillis();
    for (int k = 0; k < 10000000; k++) {
        c.getBytes("UTF-8");
    }
    System.out.println("t1->" + (System.currentTimeMillis() - ts));

    ts = System.currentTimeMillis();
    for (int i = 0; i < 10000000; i++) { 
        c.getBytes();
    }
    System.out.println("t2->" + (System.currentTimeMillis() - ts));

这给出了：

t1->1970
t2->2541

即使您更改循环的执行顺序，结果也是一样的。为了对任何JIT优化进行折扣，我建议用不同的方法运行测试以确认这一点（正如@Peter Lawrey上面所建议的那样）

因此，Bytes.toBytes(c)应始终比String.getBytes()

Java基准测试 - 为什么第二个循环更快？

6 个答案: