我的程序中有这个简单的功能:
enum {
TABLE_INDEX_TYPE_UINT8 = 0,
TABLE_INDEX_TYPE_UINT16,
TABLE_INDEX_TYPE_UINT32,
};
// inline method
uint8_t MyTable :: GetTableIndexTypeForTableSize(uint32_t tableSize) const
{
// Deliberately testing for strictly-less-than-255/65535 here,
// because 255 and 65535 are used as special sentinel values
return (tableSize < 255) ? TABLE_INDEX_TYPE_UINT8
: ((tableSize < 65535) ? TABLE_INDEX_TYPE_UINT16 : TABLE_INDEX_TYPE_UINT32);
}
在程序的当前版本中,只要tableSize
发生更改,我都会调用此方法,并将结果存储在成员变量中以便快速重用,并且效果很好。
但是,今天我正在尝试减少sizeof(MyTable)
,并且这样做的一种方法是摆脱不必要的成员变量。由于上述函数的缓存结果始终是可重新计算的(基于tableSize
成员变量的当前值),因此我修改了代码以在需要时仅调用GetTableIndexTypeForTableSize(tableSize)
。 / p>
这也可以正常工作(可以让我sizeof(MyTable)
减少4个字节,是的),但是在性能基准测试中却导致了可测量的性能下降(〜5%),我相信这是因为GetTableIndexForTableSize()
的当前实现包括两个分支操作。
所以我的问题是,是否有一个聪明的方法可以重新实现上述功能,从而不需要任何分支,从而避免5%的速度下降? (我认为使用查找表将是一个 不好的主意,因为我将用RAM访问延迟代替分支错误预测延迟,从而使事情变得更慢)
答案 0 :(得分:5)
如果仔细选择枚举值,应该可以按位或自己选择正确的枚举值。我怀疑这样做会更快吗。
#include <cstdint>
enum {
TABLE_INDEX_TYPE_UINT8 = 0,
TABLE_INDEX_TYPE_UINT16 = 1,
TABLE_INDEX_TYPE_UINT32 = 3
};
uint8_t MyTable::GetTableIndexTypeForTableSize(uint32_t tableSize) const
{
return (tableSize >= 255) | ( (tableSize >= 65535) << 1 );
}