我正在尝试用C实现霍夫曼编码。我完成了树结构,并在算法进行时获得了每个符号的代码字。但现在我不得不将代码字插入到相应符号的二进制文件中。有人可以建议如何将代码字或二进制位写入二进制文件,以便我可以获得压缩文件。
代码字长度可变。
在文件中写入和读取这些位的功能会很有用。
这是我写的代码
void create_compressed_file()
{
char str[20],ch,*str2,str1[10],str_arr[6],str3[10];
FILE *fp,*fp2,*fp3;
int i,array[20],j=0;
fp2=fopen("newfile.txt","r"); // contains the original text file
fp3=fopen("codeword.txt","r"); // contains the symbol and codeword
while(fscanf(fp2,"%s",&str)==1)
{
rewind(fp3);
str2=strtok(str,"-");
while(str2!=NULL)
{
strcpy(str_arr,str2);
printf("str2= %s ",str_arr); //str2 stores the symbol(not char but a string)
printf(" %s-",str2);
while(fscanf(fp3,"%s",&str1)==1)
{
if(strcmp(str1,str_arr)==0)
{
fscanf(fp3,"%s",&str1); // extracted corresponding codeword(1s and 0s) of the symbol and stored it into str1
printf("%s\n",str1);
write_codeword_to_binaryfile(); // function that i want to create with is incomplete and need your help.
}
}
str2=strtok(NULL,"-");
rewind(fp3);
}
printf("\nspace:");
strcpy(str_arr,"space");
while(fscanf(fp3,"%s",&str1)==1)
{
if(strcmp(str1,str_arr)==0)
{
fscanf(fp3,"\n%s",&str1); // extract the codeword for(space)character
printf("%s\n",str1);
}
}
}
fclose(fp2);
fclose(fp3);
}
codeword.txt:
is 0000
por 00010
Plain 000110
most 0001110
the 0001111
ted 00100
text 00101
ly 0011000
near 0011001
pli 0011010
ap 0011011
ble 0011100
ta 0011101
by 0011110
sup 0011111
cryp 0100000
In 0100001
ra 0100010
tog 0100011
ting 0100100
tain 0100101
mands 0100110
com 0100111
mes 0101000
to 0101001
ge 0101010
sa 0101011
plain 0101100
phy 0101101
i tried the above code as below but it dint write anything...the file size after execution was 0 bytes:
#include<stdio.h>
#include<conio.h>
#include<stdint.h>
void write_codeword_to_binaryfile(
const char *codeword, // codeword to write, in ASCII format
FILE *file, // destination file
uint8_t *buffer,
int *fullness)
{
char c;
// fullness = ;
*buffer = 0;
for ( c = *codeword++; c != '\0'; c = *codeword++) // iterate
{
int bit = c - '0'; // convert from ASCII to binary 0/1
*buffer |= bit << (7 - fullness);
++fullness;
}
fputc(*buffer, file);
}
int main()
{
FILE *fp;
uint8_t *buffer=0;
char *c="10101010";
char b = 0;
int i;
fp=fopen("myfile.bin","wb");
write_codeword_to_binaryfile( c,fp,buffer, 8);
fclose(fp);
getch();
}
答案 0 :(得分:0)
首先,您应该以二进制模式打开文件:
fp = fopen("myfile", "wb"); // "b" means "binary"
这在Windows中是必须的,但在大多数其他平台上都不是必需的(您不需要做任何特殊的事情来区分平台;只需使用&#34; wb&#34;)。
要将位写入文件,应使用缓冲区 - 部分填充的字节。填充时将缓冲区写入文件(恰好包含8个填充位)。
uint8_t buffer = 0;
您应该使用一个计数器来跟踪填充的位数。
int fullness = 0;
写入文件的函数应该接收缓冲区及其丰满度。因为它会改变它们,所以你实际上必须发送指针:
void write_codeword_to_binaryfile(
const char *codeword, // codeword to write, in ASCII format
FILE *file, // destination file
uint8_t *buffer,
int *fullness)
{
for (char c = *codeword++; c != '\0'; c = codeword++) // iterate
{
int bit = c - '0'; // convert from ASCII to binary 0/1
...
}
}
有两种方法可以在一个字节中排列位 - 小端(第一位是最低有效位)或大端(第一位是最高位)。习惯的方式是使用big-endian排序。
因此,如果您的缓冲区填充了一定数量的位,那么如何填充下一位?以下示例显示了填充5位的缓冲区:
011011...
^
next bit to fill (its position, starting from the left, is 2)
从这个例子中可以看出,下一位的位置是7 - fullness
。因此,对于每个位,请执行以下操作:
*buffer |= bit << (7 - *fullness);
++fullness;
有关详细信息,请参阅How do you set, clear and toggle a single bit in C/C++?。
当缓冲区已满(fullness
等于8)时,将其写入文件:
fputc(*buffer, file);
*fullness = 0;
*buffer = 0;
你也应该&#34;冲洗&#34;完成邮件编码后的缓冲区(即将其写入文件):
if (*fullness > 0)
fputc(*buffer, file);
顺便说一下,在消息结束时发生的事情是位级编码器常见的非平凡问题。您应该从解码器的角度考虑它:您需要了解应该在文件的最后一个字节中解码多少位。有几种解决方案:
1
位,然后编码为零,直到缓冲区已满。解码器需要反向解码零比特和1
比特。这由MPEG使用。