140个字符。它将占用多少内存?
我正在尝试计算我的EC2大型实例Mongo DB可以容纳的推文数量。
答案 0 :(得分:9)
Twitter uses UTF-8 encoded messages。
UTF-8 code points can be up to six four octets long,使最大邮件大小 140 x 4 = 560 8位字节。
当然,这仅适用于原始消息,不包括存储开销,索引和其他与存储相关的填充。
e:Twitter成功让我发布消息:
™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™ ™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™ ™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™
是的,这是140个商标符号,即three octets each in UTF-8
答案 1 :(得分:2)
早在9月,Twitter gave a presentation的一位工程师建议每张推文大约200个字节。
当然,您仍需要考虑自己的元数据和数据库本身的开销,但200字节/记录可能是一个很好的起点。
答案 2 :(得分:0)
通常,如果您将Unicode存储为UTF-8,则每个字符为两个字节,因此这意味着每条推文最多可包含280个字节。
答案 3 :(得分:0)
内存中可能有284个字节(4个字节长度前缀+长度* 2)。在DB内部我不能说但如果数据库是UTF-8可能是280,你可以添加一些字节的开销,用于元数据等。
答案 4 :(得分:0)
潜在的兴趣:
http://mehack.com/map-of-a-twitter-status-object
Twitter状态对象的剖析
更多关于twitter字符编码的信息:
http://dev.twitter.com/pages/counting_characters
答案 5 :(得分:0)
它在技术上存储为UTF-8,而实际上,来自这里的高音扬声器人员的幻灯片显示了http://www.slideshare.net/raffikrikorian/twitter-by-the-numbers的真实属性:
140个字符,~200个字节