一条推文有多少字节的内存?

时间:2011-05-14 04:31:38

标签: string memory

140个字符。它将占用多少内存?

我正在尝试计算我的EC2大型实例Mongo DB可以容纳的推文数量。

6 个答案:

答案 0 :(得分:9)

Twitter uses UTF-8 encoded messages

UTF-8 code points can be up to six four octets long,使最大邮件大小 140 x 4 = 560 8位字节

当然,这仅适用于原始消息,不包括存储开销,索引和其他与存储相关的填充。

e:Twitter成功让我发布消息:

  

™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™ ™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™ ™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™™

是的,这是140个商标符号,即three octets each in UTF-8

答案 1 :(得分:2)

早在9月,Twitter gave a presentation的一位工程师建议每张推文大约200个字节。

当然,您仍需要考虑自己的元数据和数据库本身的开销,但200字节/记录可能是一个很好的起点。

答案 2 :(得分:0)

通常,如果您将Unicode存储为UTF-8,则每个字符为两个字节,因此这意味着每条推文最多可包含280个字节。

答案 3 :(得分:0)

内存中可能有284个字节(4个字节长度前缀+长度* 2)。在DB内部我不能说但如果数据库是UTF-8可能是280,你可以添加一些字节的开销,用于元数据等。

答案 4 :(得分:0)

潜在的兴趣:
http://mehack.com/map-of-a-twitter-status-object
Twitter状态对象的剖析

更多关于twitter字符编码的信息:
http://dev.twitter.com/pages/counting_characters

答案 5 :(得分:0)

它在技术上存储为UTF-8,而实际上,来自这里的高音扬声器人员的幻灯片显示了http://www.slideshare.net/raffikrikorian/twitter-by-the-numbers的真实属性:

  

140个字符,~200个字节