为什么Calli比代表电话更快?

时间:2011-05-05 05:22:40

标签: c# .net reflection.emit ilgenerator

我正在玩Reflection.Emit并找到关于这个很少用的EmitCalli。好奇,我想知道它是否与常规方法调用有任何不同,所以我掀起了下面的代码:

using System;
using System.Diagnostics;
using System.Reflection.Emit;
using System.Runtime.InteropServices;
using System.Security;

[SuppressUnmanagedCodeSecurity]
static class Program
{
    const long COUNT = 1 << 22;
    static readonly byte[] multiply = IntPtr.Size == sizeof(int) ?
      new byte[] { 0x8B, 0x44, 0x24, 0x04, 0x0F, 0xAF, 0x44, 0x24, 0x08, 0xC3 }
    : new byte[] { 0x0f, 0xaf, 0xca, 0x8b, 0xc1, 0xc3 };

    static void Main()
    {
        var handle = GCHandle.Alloc(multiply, GCHandleType.Pinned);
        try
        {
            //Make the native method executable
            uint old;
            VirtualProtect(handle.AddrOfPinnedObject(),
                (IntPtr)multiply.Length, 0x40, out old);
            var mulDelegate = (BinaryOp)Marshal.GetDelegateForFunctionPointer(
                handle.AddrOfPinnedObject(), typeof(BinaryOp));

            var T = typeof(uint); //To avoid redundant typing

            //Generate the method
            var method = new DynamicMethod("Mul", T,
                new Type[] { T, T }, T.Module);
            var gen = method.GetILGenerator();
            gen.Emit(OpCodes.Ldarg_0);
            gen.Emit(OpCodes.Ldarg_1);
            gen.Emit(OpCodes.Ldc_I8, (long)handle.AddrOfPinnedObject());
            gen.Emit(OpCodes.Conv_I);
            gen.EmitCalli(OpCodes.Calli, CallingConvention.StdCall,
                T, new Type[] { T, T });
            gen.Emit(OpCodes.Ret);

            var mulCalli = (BinaryOp)method.CreateDelegate(typeof(BinaryOp));

            var sw = Stopwatch.StartNew();
            for (int i = 0; i < COUNT; i++) { mulDelegate(2, 3); }
            Console.WriteLine("Delegate: {0:N0}", sw.ElapsedMilliseconds);
            sw.Reset();

            sw.Start();
            for (int i = 0; i < COUNT; i++) { mulCalli(2, 3); }
            Console.WriteLine("Calli:    {0:N0}", sw.ElapsedMilliseconds);
        }
        finally { handle.Free(); }
    }

    delegate uint BinaryOp(uint a, uint b);

    [DllImport("kernel32.dll", SetLastError = true)]
    static extern bool VirtualProtect(
        IntPtr address, IntPtr size, uint protect, out uint oldProtect);
}

我在x86模式和x64模式下运行代码。结果?

  

32位:

     
      
  • 委托版本:994
  •   
  • Calli版本:46
  •   
     

64位:

     
      
  • 委托版本:326
  •   
  • Calli版本:83
  •   

我想这个问题现在很明显......为什么会出现如此巨大的速度差异?


更新

我也创建了64位P / Invoke版本:

  
      
  • 委托版本:284
  •   
  • Calli版本:77
  •   
  • P / Invoke版本:31
  •   

显然,P / Invoke更快......这是我的基准测试的问题,还是有什么事情我不明白? (顺便说一句,我处于发布模式。)

2 个答案:

答案 0 :(得分:8)

鉴于您的性能数据,我假设您必须使用2.0框架或类似的东西? 4.0中的数字要好得多,但“Marshal.GetDelegate”版本仍然较慢。

问题在于并非所有代表都是平等的。

托管代码函数的委托基本上只是一个直接函数调用(在x86上,这是一个__fastcall),如果你正在调用一个静态函数,那么增加一点“switcheroo”(但这只是3或4条指令) 86)。

另一方面,由“Marshal.GetDelegateForFunctionPointer”创建的代理是对“存根”函数的直接函数调用,它在调用非托管函数之前执行一些开销(编组和诸如此类)。在这种情况下,只有很少的编组,这个调用的编组似乎在4.0中进行了相当优化(但很可能仍然通过2.0上的ML解释器) - 但即使在4.0中,也有一个stackWalk要求非托管代码权限,不属于你的愈伤组织代表。

我一般都发现,如果不了解.NET开发团队中的某个人,那么最好的办法是找出w /托管/非托管互操作的内容,就是用WinDbg和SOS进行一些挖掘。

答案 1 :(得分:6)

很难回答:) 无论如何,我会尝试。

EmitCalli更快,因为它是一个原始字节码调用。我怀疑SuppressUnmanagedCodeSecurity还会禁用一些检查,例如堆栈溢出/数组越界索引检查。所以代码不安全并且全速运行。

委托版本将有一些编译代码来检查输入,并且还将执行取消引用调用(因为委托就像一个类型化函数指针)。

我的两分钱!