在Python中正确实现ArchiveLib压缩

时间:2019-06-05 16:39:08

标签: python compression embroidery

我编写了一个绣花输入和输出python模块EmbroidePy/pyembroidery,而HUS和VIP是两种相关的,旧的和流行的绣花格式,它们使用特定的已失效压缩格式,特别是ArchiveLib, AL_GREENLEAF_LEVEL_4。许多绣花软件套件使用旧的.dll文件al21mfc.dll来利用正确的压缩。包括.dll文件不是启动器,但似乎没有任何合理的方法来无缝模拟已失效的压缩格式。

Embroidermodder团队有一个可以接受的许可C ++刺绣读写库,实际上是emb-compress本身就实现的,我也想这样做。

我想原生地能够在python中甚至在Java中压缩和解压缩这些元素。我更喜欢可读的代码,但这并不是遥不可及的要求。

但是,有问题。

  • libembroidery中的C ++代码显然是经过反编译的,看起来像胡言乱语,仅使源代码难于移植。

  • ArchiveLib源代码与产品本身一起发布,但是无法找到。拥有它可能会打开一些方法,以了解特定的需求,从而在python中原生实现它。

解决方案不必太漂亮。解决方案不需要很快。我考虑过将C ++代码编译为某种字节代码,以在python中实现虚拟cpu之类的事情。或使用其他程序来移植看起来很乱的代码,这会增加乱码的级别,或者手动执行(但是它总是很快让我迷失了)。我在网络的最暗处寻找了原始源代码。而且我还很简短。

似乎应该有足够的钱可以使某些东西起作用,但是每个想法都比下一个想法更难,不实用。有什么我想念的东西或某种想法可以使这些解决方案之一迅速发挥作用吗?还是其他可行的解决方案?

1 个答案:

答案 0 :(得分:0)

ArchiveLib压缩是执行ARJ压缩的Robert Jung的子许可产品。 ARJ和ArchiveLib使用相同的方案,专利保护自此失效。

它发送经过压缩的霍夫曼表,通过读取n个huffman_code_length可以建立该表。检查它们是否解决了平衡的霍夫曼树。这些关键字从最长的代码字到最短的代码字进行排序,并且绑定条目的值最低。

因此,如果值的长度为4、8、2、2。它将为8、4、2、2提供码字0、10、110、111。这些给定的顺序反映了它们的位置。因此,第一个条目为10,第二个为0,第三个为110,第111个为第111个。由于这两个并列,因此按接收顺序应用它们。

通过16个字节读取块以传达符号数。其后是字符长度表。这是霍夫曼编码的。然后,使用字符长度表来构建字符表。使用霍夫曼表构建字符霍夫曼表。然后,发送第三个距离表,该表给出读取窗口内回溯的值。


字符长度表。

5位计数数据。可以传送0到32的值。如果为零,则读取另一个5位值,该值用于所有值。

对于计数中的每个值,我们读取一个可变长度。在索引3处有特殊值(给定第4个值)的前缀是2位,该位在索引中向前跳0到3个值。这些跳过的值被视为计数的一部分。前三个条目是字符表中的特殊命令代码。

这将提供多达32个不同的值长度,霍夫曼码的长度可以是


字符表。

9位计数。这意味着它可以提供0到511之间的值。如果为0,则所有值都是紧随其后的9位。

条目数是实际填写表格的值。因此,如果为4,则511条目表中将有4个不同的非零条目。

编码的数据是如何跳过或填充提供的相关数据。 0表示我们在表序列中设置一个零。 1表示我们读取4位并将3加到该值,然后将那么多表条目清零。 2表示我们读取9位,然后向该值加20,然后在许多表条目中将其清零。对于任何大于该值的值,我们减去2并简单地将该长度放在表中。

结果是一个列表,列出了多达511个元素的所有必需代码的长度(任何未获取值的条目均为0)。然后将其发送到霍夫曼表构建算法,以检查其有效性并构建表。这会将霍夫曼代码分配给0到511之间的令牌。


距离霍夫曼

5位计数。如果为零,则为所有值给出5位数字。

每个条目读取一个可变长度的数据值。这导致长度为0-32的值。然后将它们用于构建相关的霍夫曼表。

此表将具有多达32个由霍夫曼表定义的不同整数值。


可变长度数据。

3位值。如果不是7,则返回该值。 如果7读取0到13之间的其他字节,直到找到一个非值。因此,如果值小于7,则使用该值。如果大于7,则每增加1表示值增加1。所以11110是8。111110是9。最多13位。给出的值为0到20。介于3到16位之间。


减压。

实际解压缩意味着读取块和表。然后使用字符表和距离表(必要时)压缩流。将对照字符表检查每个值以提供令牌。如果值为0-255,则为文字。如果值为510,则表示结束命令。如果该值大于255,则对应于返回窗口的指针。大于255的值对应于(v-253)个字符的字符串。也就是说,值为256表示我们正在从窗口读取3个字符。 257表示4个字符。最多509,这意味着我们正在从窗口中读取255个字符。如果要从查找中读取a,则流上的下一个值是使用距离霍夫曼表读取的向后距离。


压缩。

任何适合解压缩方案的压缩方案都将起作用。它如何找到编码的东西是无关紧要的。关于ARJ的专利只是简单地快速压缩事物的方式,这不是什么大问题。但是,一种有趣的方法是根本不压缩任何内容,而只是强制通过标头进行空操作。

编写空操作压缩的示例。

16位块大小。如果我们需要超过32k元素,则必须编写另一个块。

  • 写字符长度霍夫曼。 5个字节:00000,我们有0个条目。 1个长度。他们都是8。 5个字节:01010,所有值均为10,表示长度8。

字符长度霍夫曼只返回10。

  • 写字符霍夫曼。 9位:100000000,256个条目。

所有条目将查询“字符长度”霍夫曼,并获得值10,即8。

Character Huffman表将具有256个8位条目。这将建立一个文字表,其中每个字节都完全相等。由于存在256个绑定条目,因此它们将从最低元素中首先获取。

距离霍夫曼。 (我们从不使用此功能)。 5位:00000无条目。 5位:00000任何值都无关紧要。

这使编写我们的文字表需要29位。但是,为了使此方法非常有用,我们希望它精确地划分8位。我们可以通过更改距离霍夫曼来做到这一点,因为所有值都是文字,所以我们从未使用过。

5位:00001 1个距离霍夫曼。 3位:111,我们的可变长度值等于或大于7。 5位:11110,我们在这7中添加4,长度为11。但是实际上,我们在填充。

(10)+(9)+(5 + 3 + 5)= 32位。

0b00000010101000000000000111111110 可以将其存储为单个整数:0x02A001FE

因此,对于compress,我们可以简单地给出块的大小,然后给出0x02A001FE以及未压缩的数据。它将被视为已压缩。由于我实际上不建议使用一种几乎无效的压缩方案。