我有以下TimeStamp值:Wed Jun 25 09:18:15 +0000 2014
。
我正在用Python编写MapReduce程序,该程序从Amazon S3位置读取JSON对象并将其导出到本地CSV文件。然后,CSV文件将数据导出到MySQL和HBase数据库。我有大约2亿条记录(1 TB),所以我需要优化每个处理步骤。
我应该使用什么数据类型将TimeStamp值存储在Python,CSV,MySQL和HBase数据库中?我需要存储TimeStamp值的所有方面。我的模式在CSV文件,MySQL和HBase数据库表中有4列。
谢谢!
答案 0 :(得分:2)
使用long表示时间(毫秒),因此您不必担心date formatting/string encoding
。它节省空间并且更容易执行范围查询。