Ascii表示没有特定字符的压缩数据

时间:2012-08-22 18:29:02

标签: python hadoop hadoop-streaming

我想用Hadoop使用Python处理大量的pickle数据。我想要做的是将我的数据表示为一个键(文件ID)和压缩的pickle作为大文件中的值。

如果我只是尝试将二进制代码ascii放在我想用hadoop处理的文件中,我会得到很多'\ t'和'\ n'值会干扰hadoop的(key,value)结构文件。

我的问题是:如何使用python压缩一些数据并将其表示为ascii文件中的字符串,避免使用某些字符(例如'\ t'和'\ n')?

或者我的方法本质上无效?

我真的很感激任何帮助!

2 个答案:

答案 0 :(得分:0)

对于压缩,您可以使用zlibbz2模块。对于表示,您可以使用base64模块。

答案 1 :(得分:0)

您可以使用base64模块将pickled对象转换为base64