我在使用C ++读取二进制文件时遇到问题。目前我的代码是这样的:
FILE *s=fopen(source, "rb");
fseek(s,0,SEEK_END);
size_file size=ftell(s);
rewind(s);
char *sbuffer=(char *) malloc(sizeof(char) * size);
if(sbuffer==NULL){
fputs("Memory error", stderr);
exit(2);
}
size_t result=fread(sbuffer,1,size,s);
if(result != size){
fputs("Reading error",stderr);
exit(3);
}
fclose(s);
cout<<sbuffer<<endl;
但是,终端上打印的字符都是随机字符,而不是我在PDF文件中写的字符。他们就像:
% P D F - 1 . 3
% ? ? ? ? ? ? ? ? ? ? ?
4 0 o b j
< < / L e n g t h 5 0 R / F i l t e r / F l a t e D e c o d e > >
s t r e a m
x ? ? ? j ? 0 E ? ? ? k ? y Q E # ? ? ? m ? & ? ? @ % + ? . ? ? ? ? A i ? 4 z \ 1 G W ? ? - , ? ? ? ( ? ? ? 9 ? ? ? ? ? \ ? } ? ? ? e ? ? ? ? 0 ? ? ? ~ ? , ? ? & 8 ? ? x e 4 ? r
| ? ? ?
? ? ? ? E > a ? ? z & ? Z ? < ? } ' ? ? ? j p ? ? Q 7 0 ? ? ? S % - p ? ? ? 7 D ? ? ? ' Q z Q ? ? ? ? ? ? ? ? ? ? \ 2 ? ? 7 ? ? ? < ? ? D ~ ? ? ?
e n d s t r e a m
e n d o b j
5 0 o b j
2 2 8
e n d o b j
2 0 o b j
还有很多像上面这样的人物。我试图搜索很长时间,但无法找到如何获取实际字符以供以后处理。顺便说一句,我正在尝试编写一个压缩器,它将二进制文件作为输入和输出。任何帮助都非常感谢!
答案 0 :(得分:5)
只有少数文件格式如普通原始.TXT文本文件可以直接“读取”和“理解”。大多数文件格式(包括几乎任何二进制格式)都是.. 格式。这意味着文件中存在某些结构。与完全没有结构的.TXT文本文件完全相反,或者更确切地说,它是一个巨大的纯数据块。
打开写字板或Word或任何其他最不明智的文本编辑器并在其中写入一些文本,然后将其另存为RTF,DOC,ODT或任何其他非TXT文件。然后将其另存为TXT文件。
下载HEX VIEWER / HEX EDITOR。无论如何。取其中一个免费,你不需要很多功能,只需要在一列中显示原始二进制值而在另一列中显示ASCII文本。几乎任何免费的十六进制观察者/编辑都可以做到这一点。
打开并比较这两个文件。你会立即看到差异。
返回PDF:
PDF甚至可以包含与文本交错的图形。如果文本像TXT一样“只是坐在文件中”,你期望如何保留它?如何嵌入图像位置/描述/数据?如果我记得很清楚,PDF甚至可以包含脚本,类似于JavaScripts。可执行文件。在PDF类型的文档中,您可以使用按钮执行某些操作。这比文件中的文件复杂得多。
二进制文件通常不包含任何明文可读的文本。他们将文本结构化为块,包含有关颜色,文本布局,分页等的元数据,甚至是关于文档版本控制,创作,分类(...)的特殊结构。这一切都必须存储在某个地方。
通常,二进制文件包含部分。第一部分通常称为HEADER。在内部,将有以下信息:格式类型,格式版本,文件/块/数据长度,图像分辨率等。所有那些最有可能以二进制形式保存:没有“800x600”文本,只是“| 00 | 00 | 03 | 20 | 00 | 00 | 02 | 58 |”假设是32位BE。在您阅读,解码并理解了描述之后,您将知道实际数据的起始位置,数据块的布局方式以及如何解码它们并了解它们包含的内容。
编辑:
在了解了文本文件和二进制文件之间的区别之后,请查看http://en.wikipedia.org/wiki/Entropy_(information_theory)上的绝对基础知识。然后尝试使用RLE(http://www.daniweb.com/software-development/cpp/code/216388/basic-rle-file-compression-routine)或Huffman(http://www.cprogramming.com/tutorial/computersciencetheory/huffman.html)来开始相对简单的事情。然后开始阅读有关霍夫曼代码的更多信息,然后,您将为ZIP或LZH等任务做好充分的准备。
答案 1 :(得分:3)