我正在考虑使用最频繁的英语单词来压缩大块文本,但现在我怀疑它是否有效,因为lzw似乎以更好的方式实现了这一点。
尽管如此,我仍然无法摆脱压缩角色的感觉,因为人们只能分析句子的结构以便更好地将其组织成更小的数据块,解压后结构不完全相同,可以使用经典的压缩方法。
"基本" NLP允许吗?
答案 0 :(得分:0)
NLP?
标准压缩技术可以应用于单词而不是字符。这些技术将基于前面的单词将概率分配给下一个单词。实际上我没有在实践中看到这一点,因为除了字符之外还有更多的单词,导致内存使用率过高,甚至低阶模型的执行时间过长。