如果我知道我要存储哪种数据(考虑到压缩),有没有办法估算行大小?
我正在看
之类的东西bson_id |字符串(最多200个字符)| int32 | int32 | int32 |布尔|布尔| DateTime | DateTime | DateTime | INT32
我正在尝试为大约2万亿条记录找到最好的数据库解决方案,如上面的那个,结合大约x20像
bson_id | bson_id
欢迎任何其他建议
答案 0 :(得分:0)
排序非常通用的答案。
据我所知,只有使用虚拟数据进行测试才是测量此类事物的可靠方法。 “虚拟”在这里意味着假但不重复,因为强烈的重复可能会破坏压缩估计。
例如,您可以放置1m,2m,4m,8m,32m,128m等等...记录并检查是否有任何线性依赖。如果它是线性的,您可以轻松地为数十亿和数万亿条记录提供一些偶然推断值。
在此类测试中,您还可以根据需要检查性能。例如,您可以增加HDFS的复制因子以提高读取性能。
最后,您可以检查此压缩视点。
祝BigData好运!