我有一个非常simple program,在这里我合并了两个100byte对象(SortRecord
)的向量。
#include <numeric>
#include <iostream>
#include <sstream>
#include <array>
#include <chrono>
constexpr size_t TUPLE_SIZE = 90;
constexpr size_t KEY_SIZE = 10;
constexpr size_t TUPLE_COUNT = 1024 * 1024 * 20;
constexpr size_t ARRAY_COUNT = 2;
using Record = std::array<uint8_t, TUPLE_SIZE>;
using Header = std::array<uint8_t, KEY_SIZE>;
using TimerClock = std::chrono::system_clock;
struct SortRecord {
Header header;
Record record;
bool operator<(const SortRecord& record)
{
const uint64_t a = *reinterpret_cast<const uint64_t*>(&header[0]);
const uint64_t b = *reinterpret_cast<const uint64_t*>(&record.header[0]);
if (a == b)
{
const uint16_t c = *reinterpret_cast<const uint16_t*>(&header[8]);
const uint16_t d = *reinterpret_cast<const uint16_t*>(&record.header[8]);
return c < d;
}
return a < b;
}
};
template<size_t tuplecount>
static auto CreateArray()
{
std::array<std::vector<SortRecord>, ARRAY_COUNT> data_array;
uint64_t hvalue = 0;
srand(100);
for (auto& data : data_array)
{
data.resize(tuplecount);
hvalue = 0;
std::for_each(data.begin(), data.end(), [&hvalue](auto& it)
{
*reinterpret_cast<uint64_t*>(&it.header[0]) = hvalue = hvalue + (rand() % 100);
});
}
return data_array;
}
auto data_array = CreateArray<TUPLE_COUNT>();
// merge
std::vector<SortRecord> result1;
result1.reserve(TUPLE_COUNT * 2);
auto start = TimerClock::now();
std::merge(data_array[0].begin(), data_array[0].end(),
data_array[1].begin(), data_array[1].end(),
std::back_inserter(result1));
auto end = TimerClock::now();
std::cout << std::to_string(std::chrono::duration_cast<std::chrono::milliseconds>(end - start).count()) << " [ms]\n";
我试图将其与这两个向量的简单串联进行比较,令人惊讶的是它具有几乎相同的速度。
// concatenation
std::vector<SortRecord> result2;
result2.reserve(TUPLE_COUNT * 2);
auto start2 = TimerClock::now();
result2.insert(result2.end(), data_array[0].begin(), data_array[0].end());
result2.insert(result2.end(), data_array[1].begin(), data_array[1].end());
auto end2 = TimerClock::now();
std::cout << std::to_string(std::chrono::duration_cast<std::chrono::milliseconds>(end2 - start2).count()) << " [ms]\n";
我已经在MSVC 2017和gcc上进行了尝试,结果非常相似。当我尝试用float或int替换SortRecord
时,突然间我得到了很多better results的连接。
SortRecord
变体有什么问题?
答案 0 :(得分:1)
基本上有两种效果都与合并元素的数量成线性比例:
merge
必须比较元素这两种贡献都与元素数量成线性比例,但是它们对元素大小的依赖性似乎不同。
int
插入与合并
对于较小的int
,由于比较元素获胜而产生的开销,您会发现insert
的表现胜过merge
。
SortRecord
插入与合并
您的SortRecord
数量巨大。在这种情况下,似乎主要的贡献来自阅读和编写元素,并将它们进行比较只是很小的贡献。 (我有些困惑,为什么在您的基准测试merge
中实际上比insert
快10%,但我们称其为微不足道的;)。
一个人可能会推测它与缓存有关,而内存访问实际上并不能线性扩展。无论如何,如果您只是缩小SortRecord
,但保留要合并的元素数,那么您see the same difference as for integers。