我很好奇。
我想检查哪个功能更快,所以我创建了一些代码并且我执行了很多次。
public static void main(String[] args) {
long ts;
String c = "sgfrt34tdfg34";
ts = System.currentTimeMillis();
for (int k = 0; k < 10000000; k++) {
c.getBytes();
}
System.out.println("t1->" + (System.currentTimeMillis() - ts));
ts = System.currentTimeMillis();
for (int i = 0; i < 10000000; i++) {
Bytes.toBytes(c);
}
System.out.println("t2->" + (System.currentTimeMillis() - ts));
}
“第二个”循环更快,所以,我认为hadoop的Bytes类比String类的函数更快。然后,我改变了循环的顺序,然后c.getBytes()变得更快。我执行了很多次,我的结论是,我不知道为什么,但是在第一个代码执行后我的VM中发生了一些事情,以便第二个循环的结果变得更快。
答案 0 :(得分:61)
这是一个经典的Java基准测试问题。 Hotspot / JIT / etc会在您使用它时编译您的代码,因此在运行期间它会变得更快。
首先在循环中运行至少3000次(在服务器上或在64位上) - 然后进行测量。
答案 1 :(得分:18)
您知道出现了问题,因为Bytes.toBytes
在内部调用了c.getBytes
:
public static byte[] toBytes(String s) {
try {
return s.getBytes(HConstants.UTF8_ENCODING);
} catch (UnsupportedEncodingException e) {
LOG.error("UTF-8 not supported?", e);
return null;
}
}
来源取自here。这告诉你,呼叫不可能比直接呼叫更快 - 在最好的情况下(即如果它被内联)它将具有相同的时间。但是,一般情况下,由于调用函数的开销很小,所以你会期望它稍慢一些。
这是在解释的垃圾收集环境中使用微型基准测试的经典问题,其中组件在任意时间运行,例如垃圾收集器。最重要的是,有一些硬件优化,如缓存,扭曲图片。因此,查看正在发生的事情的最佳方式通常是查看来源。
答案 2 :(得分:13)
“第二”循环更快,所以,
当您执行方法至少10000次时,它会触发整个方法进行编译。这意味着你的第二个循环可以是
最好的解决方案是将每个循环放在一个单独的方法中,这样一个循环不会优化另一个循环并运行几次,忽略第一次运行。
e.g。
for(int i = 0; i < 3; i++) {
long time1 = doTest1(); // timed using System.nanoTime();
long time2 = doTest2();
System.out.printf("Test1 took %,d on average, Test2 took %,d on average%n",
time1/RUNS, time2/RUNS);
}
答案 3 :(得分:6)
最有可能的是,代码在第一个循环运行时仍在编译或尚未编译。
将整个方法包装在外部循环中,这样您就可以运行几次基准测试,并且您应该看到更稳定的结果。
答案 4 :(得分:5)
可能就是你通过调用getBytes()为对象分配了这么多空间,JVM垃圾收集器启动并清理未使用的引用(带出垃圾)。
答案 5 :(得分:1)
几点观察
正如上面@dasblinkenlight指出的那样,Hadoop的Bytes.toBytes(c);
在内部调用String.getBytes("UTF-8")
将字符集作为输入的变体方法String.getBytes()
比不接受任何字符集的更快。因此,对于给定字符串,getBytes("UTF-8")
将比getBytes()
更快。我在我的机器上测试了这个(Windows8,JDK 7)。使用getBytes("UTF-8")
和其他getBytes()
按顺序运行两个循环,并进行相等的迭代。
long ts;
String c = "sgfrt34tdfg34";
ts = System.currentTimeMillis();
for (int k = 0; k < 10000000; k++) {
c.getBytes("UTF-8");
}
System.out.println("t1->" + (System.currentTimeMillis() - ts));
ts = System.currentTimeMillis();
for (int i = 0; i < 10000000; i++) {
c.getBytes();
}
System.out.println("t2->" + (System.currentTimeMillis() - ts));
这给出了:
t1->1970
t2->2541
即使您更改循环的执行顺序,结果也是一样的。为了对任何JIT优化进行折扣,我建议用不同的方法运行测试以确认这一点(正如@Peter Lawrey上面所建议的那样)
Bytes.toBytes(c)
应始终比String.getBytes()